İklim Biliminde Uygulamasıyla Paralel Kümeleme Algoritmaları

thumbnail.default.alt
Tarih
Yazarlar
Bişgin, Halil
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Bilişim Enstitüsü
Institute of Informatics
Özet
Ekolojik sınırların nasıl belirleneceği, iklim sınırlandırmalarının nasıl yapılacağı uzun zamandır süregelen bir takım tartışmalara konu olmuştur. Tartışmanın çıkış noktası başvurulan yöntemin ne derece tarafsız olduğuna dair görüş ayrılıklarıdır. İşte bir takım yanlı olabilecek yaklaşımlardansa, böylesi müdahalelerin önlenebildiği formulasyonlar kullanılması gerekmektedir. Veri madenciliğinin önde gelen yaklaşımlarından olan, hiyerarşik ve hiyerarşik olmayan teknikleri de içeren kümeleme yöntemi bu açıdan bakıldığında bize objektif bir çözüm sunmaktadır. Yanlı kararlara neden olabilecek kişisel beceri veya yorumlara dayanmak yerine, kümeleme analizi metodunu kullanmak, elimizdeki çok değişkenli bir veri kümesi için matematiksel bir yaklaşım olacaktır. Bu çalışmada, daha doğru ve kolay iklim bölgeleri edinmek için bazı istatistiksel enstrümanlarla beraber kümeleme yöntemi iklim verileri üzerinde uygulanmıştır. İlk olarak geçerli bir ayırma işlemi için algoritma üzerinde bir geçerlilik kriteri göz önüne alınmıştır. Değişken sayısının her bir deneyde 96 ile 109 arasında değiştiği hali ve Temel Bileşen Analizi (TBA) yoluyla indirgenmiş boyutlar için geçerlilik kriterinin onayladığı sayılarda iklim bölgeleri saptanmıştır. Değişken sayılarındaki bu değişim, ele aldığımız 30-50 K 3-60 D bölgesinde farklı sayılarda iklim bölgeleri önerirken, Türkiye'nin tamamına yakınını kapladığı 34-43 K 23-47 D bölgesinde devamlı olarak 4 iklim bölgesi saptamaktadır. Bu süreç ele alınırken, seri bir algoritmanın yanında paralelleştirilmiş k-ortalama uygulaması kullanılarak performansı gözlenmiştir. Uygulama neticesinde seri kodun TBA ile elde edilmiş veri kümesiyle çalışması daha kolayken, paralel prosedürün yüksek boyutlu küme ile daha iyi sonuçlar verdiğini görülmüştür. Sonuç olarak k-ortalama algoritması 30-50 K 3- 60 D ve 34-43 K 23-47 D bölgelerinin iklim sınırlandırmalarına yeni bir anlayış getirmiş, daha önce yapılmış olan bölgelendirmelerden farklı olarak Türkiye coğrafyasını 4 sınıfa ayırmıştır. Her iki çerçeveye ait deneylerde Türkiye üzerindeki sınırlar genelde aynı seviyede kendini göstermiştir.
How to determine the ecoregions or climate zones has been a controversial issue. Discussion appears from the debate if the selected method is objective or not. In order to prevent from subjective approaches, one has to utilize some formulations which are independent from such interferences. Cluster analysis, which is one of the famous pattern recognition tools and has hierarchical and non-hierarchical methods, contributes to the objectivity in this sense. Instead of relying on any expertise or personal interpretations, clustering methods provide a mathematical approach with the multivariate data set. The aim of this work is to implement cluster analysis tools to climatology data in order to obtain climate zones with some other statistical techniques that will make the study more precise. In order to clarify, first we determine how many clusters or regions do we need for valid regionalization by posing a validation criterion on the algorithm. While acquiring such a number of clusters, we have done experiments with both the high dimensional set where there are from 96 to 109 number of variables and the reduced dimensional data space which was obtained via Principal Component Analysis (PCA). Under the criterion we posed, in the region 30-50 N 3-60 E varying number of clusters obtained as the different variable combinations are used. Nevertheless, in 34-43 N by 23-47 E where Turkey covers almost all the frame, we consistently acquired 4 climate zones. During the cluster analysis (CA), besides the serial k-means algorithm we have also utilized parallel version. According to the time measurements, it is seen that whereas serial code performs better with the reduced dimensions, parallel version is good at dealing with high dimensional sets. Consequently, the k-means algorithm suggests another point of view for the climate zones of both regions where it is possible to observe some climatic blocks that are generally stable. More precisely, 4 climate zones appear in all cases concerning the second frame which represents some differences from the preceding climate zone definitions which are based on conventional and hierarchical ideas.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Bilişim Ensititüsü, 2007
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Informatics, 2007
Anahtar kelimeler
Kümeleme analizi, Paralel hesaplama, Temel bileşenler analizi, İklim, Cluster analysis, Parallel computing, Principal components analysis, Climate
Alıntı