An experimental analysis of feature selection algorithms in hyperspectral image classification

thumbnail.default.alt
Tarih
2017
Yazarlar
Vijouyeh, Hamed Gholami
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Bilişim Enstitüsü
Institute of Informatics
Özet
Son günlerde, hiperspektral görüntüler geniş spektrum bantlarından dolayı bol miktarda bilgi sağladığı için, uzaktan algılama alanında yapılan birçok araştırma da çekici bir konu olmuştur. Ancak, hiperspektral görüntülerle çok fazla miktarda veri sağlanması, hiperspektral bantlar arasındaki yüksek korelasyona bağlı olarak sınıflandırmada karmaşıklığa neden olabilir ve bilgi fazlalığı yaratabilir. Dolayısyla, bu bilgi fazlalığı, sınıflandırıcının performansına çoğunlukla bir katkı sağlamazken ekstra hesaplama zararı getirerek hiperspektral verilerin sınıflandırılmasını olumsuz yönde etkiler. Fazla öznitelik kullanılması, Hughes efekti olarak da bilinen sınıflandırma doğruluğunda bir azalmaya neden olabilir. Artıklığı azaltmak ve sınıflandırma yöntemlerinin performansını arttırmak için öznitelik seçim algoritmaları, asgari maliyetlerle belirgin bir doğruluğu sağlamak için fazla öznitelikleri kaldırmak ve veri kümesinin etkin özniteliklerini çıkarmak için kullanılmaktadır. Öznitelik seçimi (ÖS), uzaktan algılamada hiperspektral görüntüler alanında etkili ve avantajlı bir araştırma alanıdır. Çok sayıda ilgisiz ve gereksiz öznitelik içeren bu büyük veride, öznitelik seçimi yaparak, veri fazlalığı, çok fazla bilgi kaybına uğramadan azaltılabilir. Bununla birlikte, dikkate alınan hiperspektral veri kümesi için uygun bir öznitelik seçimi yönteminin belirlenmesi uygulamacılar açısından önemli olabilmektedir. Öznitelik seçme yöntemleri tipik olarak, seçim algoritmasını ve model oluşturma yöntemini nasıl birleştirdiklerine bağlı olarak üç kategoriye ayrılmaktadır: Bunlar, arama yöntemini kullanarak uygun öznitelikleri seçen filtre temelli yöntemler, seçilen öznitelikleri bir sınıflandırıcıyla doğrulayan sarmalayıcı yöntemler ve iki önceki yöntemin kazançlarını kullanan gömülü yöntemler şeklinde sıralanmaktadır. Öznitelik seçimi konusu üzerinde yapılan birçok çalışma sadece yeni yöntemlerin geliştirilmesi üzerinde değil, yöntemlerin hiperspektral görüntü sınıflandırmasına uygulanması üzerinde de yapılmaktadır. Bildiğimiz kadarıyla, hiperspektral uzaktan algılanmış veri kümeleri üzerinde, öznitelik seçimi yöntemlerinin aynı deneysel ortamlarda karşılaştırıldığı genel bir analiz çalışması literatürde mevcut değildir. Bu çalışmada, en çok kullanılan en gelişmiş on yedi öznitelik seçimi algoritması ile kapsamlı bir deneysel analiz yapılmıştr. Destek Vektör Makineleri (DVM) ve K-En Yakın Komşuluk (K-EYK) sınıflandırıcıları kullanılarak literatürde bilinen yedi hiperspektral uzaktan algılama veri kümesi üzeride kapsamlı olarak analiz edilmiştir. Bu tezin katkısı, araştırmacıların, farklı tiplerdeki öznitelik seçimi yöntemlerinin davranışını anlamasına yardımcı olmak amacıyla hiperspektral veri kümeleri ile öznitelik seçimi algoritmalarının kullanımı hakkında kapsamlı bir değerlendirme çalışması sunmaktır. Öznitelik seçimi algoritmalarının analizi, farklı sayıda eğitim örneği alınarak da analiz edilmiştir. ÖS yöntemeleri, sınıflandırma doğruluğu, öznitelik seçimi yöntemlerinin kararlılığı, sınıflandırılmış özniteliklerin bir veri kümesinin sınıflarını ayırabilme kabiliyeti ve hesaplama maliyeti olmak üzere dört ana değerlendirme kriterine göre değerlendirilmiştir. Bu tez, öznitelik seçme yöntemleri ve bunların uzaktan algılama alanındaki hiperspektral veri kümeleri üzerine odaklanmıştır. Bu tez beş bölümden oluşmaktadır. Birinci bölüm, bu çalışmayı tanıtmakta ve uzaktan algılama alanında kullanılan hiperspektral görüntülerden bazı yönler sunmaktadır. Buna ek olarak, bu bölümde boyut azaltıcı ve sınıflandırma yöntemleri ile ilgili temel tanımlarda verilmektedir. Ayrıca, hiperspektral görüntüleri ve öznitelik seçimi alanında yapılan literatürdeki daha önceki eserlerile ilgili bir literatür özeti verilmektedir. Bu çalışmanın kısa bir amacı ve motivasyonuna da bu bölümde yer verilmiştir. İkinci bölüm, araştırmada ele alınan yöntemlerin genel olarak tanımlarını içermektedir. Tüm öznitelik seçimi ve sınıflandırma yöntemleri kısaca özetleri verilmektedir. Üçüncü bölüm, üç alt bölümden oluşmaktadır. İlk bölüm, çalışmanın içerdiği hiperspektral veri kümelerininin genel tanımlarını içermektedir. Kullanılan hiperspektral veri kümeleri, uzaktan algılama alanındaki kullanımı çok yaygındır ve bu alanda yapılan çalışmalarda geniş ölçüde kullanılmaktadır. İkinci bölümde, öznitelik seçim yöntemlerinin analizinde kullanılan değerlendirme kriterlerinin neler olduğundan söz edilmektedir. Çalışmada, dört farklı değerlendirme kriteri dikkate alınmıştır. Bunlar, sınıflandırma doğruluğu, öznitelik seçimi yöntemlerinin kararlılığı, seçilen özniteliklerin sınıfları ayırma becerisi ve ÖS yöntemlerinin hesaplama şeklindedir. Son bölümde ise, deneylere geçmeden önce yapılan gerekli parametre seçimlerinden söz edilmektedir. Dördüncü bölüm, hiperspektral veri kümeleri ile yapılan deneylerin sonuçlarını göstermekte ve elde edilen bulgular hakkında kapsamlı bir tartışma imkanı sunmaktadır. Deney sonuçları, öznitelik seçme yöntemleri ve sınıflandırıcıların hiperspektral veri kümeleri üzerindeki davranışlarına göre ayrı ayrı incelenmiştir. Son olarak, beşinci bölümde, tez kapsamında yapılan çalışmanın elde edilen genel sonuçları özetlenmektedir. Elde edilen sonuçlara göre, filtre temelli yöntemler, hiperspektral veri kümeleri üzerinde yapılan farklı değerlendirme kriterleri çerçevesinde sarmalayıcı veya katıştırılmış tipteki yöntemlere göre daha avantajlı yöntemlerdir. Bu tez kapsamında elde edilen sonuçları ışığında, uzaktan algılama alanında hiperspektral görüntülerin sınıflandırma problemleri ve analizleri için "mutual information" tabanlı filtre yöntemlerinin kullanılması önerilmektedir. Ayrıca "Random Forest (RF)" ve "FSTree" yöntemleri de başarılı sonuçlar vermektedir. "Mutual information" yöntemlerinin avantajları aşağıda sıralanmaktadır: * Bu yöntemler herhangi bir sınıflandırıcıdan bağımsızdır ve herhangi bir parametre ayarı gerektirmezler. Dolayısıyla, bu yöntemlerin uygulanması oldukça kolaydır. * Bu yöntemlerin hesaplama zamanı sarmalayıcı ve katıştırılmış yöntemlerden daha düşüktür. * "Mutual information" tabanlı yöntemler farklı örnekler ve veriler için iyi bir genellştirme yeteniğine sahiptir. "RF" yöntemi, hiperspektral veri kümelerinin boyut azaltma sorunlarıyla başa çıkmanın başka bir alternatifi olabilir. Bu yöntem, düşük hesaplama süresinin yanı sıra yüksek düzeyde bir sınıflandırma doğruluğu vermektedir. Ancak, "RF" yönteminin uygulanması filtre tabanlı yöntemlere göre daha zordur. "FSDTree" yöntemi, sınıflandırma doğruluğu açısından oldukça iyi bir yöntemdir ancak hesaplama maliyeti yüksektir. Hesaplama zamanının önemli olmadığı uygulamalar için, bu yöntem ile başarılı sonuçlar elde edilmesi mümkündür.
Recently, hyperspectral images have been an attractive subject for many researches in remote sensing area since they provide abundant information due to their wide range of spectral bands. On the one hand, providing such a huge amount of data by hyperspectral images may lead to complexity and bring some redundancy due to high correlation among the hyperspectral bands. On the other hand, this redundancy often negatively effects the classification of hyperspectral data by imposing extra computational costs without providing any advantageous information to the performance of the classifier. Moreover, the redundancy or using more features may lead to a decrease in the classification accuracy, which is known also as Hughes effect. In order to reduce the redundancy and increasing the performance of the classification methods, feature selection algorithms have been carried out to remove irrelevant features and highlight the efficient features of dataset to achieve a significant accuracy with minimum costs. The feature selection methods are typically presented in three categories based on how they combine the selection algorithm and the model building: filter-based methods which select suitable features using a search method; wrapper methods that validate the selected features with a classifier; and embedded methods which utilize the profits of two prior methods. There have been many studies related to feature selection not only in developing novel methods but also in application of the methods to hyperspectral image classification. To our knowledge, there is no any general analysis over hyperspectral remotely sensed datasets, involving a wide range of feature selection methods to compare them in the same experimental environments. In this work, a comprehensive experimental analysis with seventeen mostly used state of art feature selection algorithms is conducted extensively analyzed with two well-known classifiers, that are K-nearest neighbours and support vector machines, on seven common hyperspectral remotely sensed datasets. The contribution of this thesis is to present an extensive benchmark study on using feature selection algorithms with hyperspectral datasets to help researchers to comprehend the behaviour of feature selection methods on different cases. The analysis of feature selection algorithms are carried out by considering different number of training samples and different number of ranked features count. Besides, the methods are assessed based on four evaluation criteria which are classification accuracy, stability of feature selection methods, ability of ranked features to separate the classes of a dataset, and computational cost. According to the results obtained from the experiments, the filter-based methods, which are improved by mutual information measures, are more profitable than the other filter-based methods, even wrapper and embedded techniques. Although, filter methods are known as unstable method, they achieve accurate classification results as well as low computational time. Some wrapper and embedded methods also perform significant classification accuracy while filter-based methods also enhance a higher level of generalization.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Bilişim Enstitüsü, 2017
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Informatics, 2017
Anahtar kelimeler
İletişim Bilimleri
Alıntı