On estimation of probability density function

thumbnail.default.alt
Tarih
2019
Yazarlar
Erçelik, Elif
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Yoğunluk fonksiyonu kestirimi istatistiğin en temel problemlerinden biridir. Yoğunluk fonksiyonu kestirimi basitçe dağılımı bilinmeyen bir veri seti için yoğunluk fonksiyonu oluşturulması problemi olarak tanımlanabilir. Yoğunluk fonksiyonu kestirimi için parametrik ve parametrik olmayan yaklaşımlar mevcuttur. Parametrik yaklaşımda, yoğunluk fonksiyonunun birkaç parametreye kadar bilindiği varsayılmaktadır. Böylece, bilinmeyen parametreler için kestiriciler kurmak, parametrik kestirim yaklaşımı için yeterlidir. Parametrik olmayan yoğunluk fonksiyonu kestirimi yaklaşımında bu varsayım hafifletilmiştir. Parametrik olmayan yaklaşım sadece verilere dayanır ve "verinin kendi adına konuşmasına izin verir". Parametrik olmayan yoğunluk fonksiyonu kestirimi ekonomi, bankacılık, genetik, klimatoloji, hidroloji gibi çok çeşitli alanlarda karşımıza çıkar. Bu nedenle, parametrik olmayan yaklaşım ile ilgili literatürde birçok çalışma mevcuttur ve yoğunluk fonksiyonu kestirimi için çeşitli metodlar önerilmiştir. Bu metodlardan çekirdek kestirimi, ortogonal kestirim metodu ve delta dizileri metodu en çok kullanılan metodlardır. Tezin ilk bölümünde, yoğunluk fonksiyonu kestirim problemi hakkında kısa bir giriş yapılarak, kullanım alanları açıklanmıştır. Daha sonra, çekirdek kestirimi, ortogonal kestirim metodu ve delta dizileri metodu ile ilgili literatür özeti verilmiştir. Son olarak, tezin amacı açıklanarak ilk bölüm tamamlanmıştır. İkinci bölümde, bu tezde kullanılan temel tanımlar ve metodlar verilmiştir. Yoğunluk fonksiyonu kestirimi için en çok kullanılan metodlar açıklanmıştır. Ayrıca kestiricinin performansını ölçmek için gerekli ve kullanışlı metodlar tanıtılmıştır. Daha sonra, yoğunluk fonksiyonu kestirimi için çok önemli olan bant genişliği seçimi metodlarından bahsedilmiştir. Üçüncü bölümde, delta dizileri metodu çalışılmıştır. Yoğunluk fonksiyonu kestirimi ile ilgili literatürdeki çalışmalarda, yoğunluk fonksiyonu ve türevleri üzerine düzgünlük koşulu yazılmaktadır. Ancak, yoğunluk fonksiyonunun süreksiz olduğu noktaların var olduğu birçok uygulama mevcuttur. Dolayısıyla, düzgünlük koşulu yoğunluk fonksiyonu sınıflarını kısıtlar ve bu kısıtın kaldırılması ya da hafifletilmesi uygulamada oldukça önemlidir. Bu amaçla, yoğunluk fonksiyonu üzerindeki koşullar ikinci dereceden süreklilik modülü majorantları cinsinden yazılarak literatürdeki çalışmalarda çoğunlukla kullanılan ikinci dereceden diferansiyellenebilme koşulu hafifletilmiştir. Ayrıca, tek değişkenli ve çok değişkenli durumlar için d-değişkenli delta dizileri yardımıyla yazılmış kestiricilerin bir noktada ortalama karesel hata yakınsaklık hızı incelenmiş ve birinci dereceden sonlu farklar yardımıyla yazılmış yoğunluk fonksiyonu kestiricileri için daha önce elde edilen sonuçlar iyileştirilmiştir. Dördüncü bölümde, ortogonal seri kestirim metodu çalışılmıştır. Yoğunluk fonksiyonu kestiricileri Hermite serileri kullanılarak delta dizileri yardımıyla yazılmıştır. Böylece sonsuz destekli yoğunluk fonksiyonları için kestiricilerin bütünleşik hata kareleri ortalaması (MISE) yakınsama hızı elde edilmiştir. Daha sonra, kompakt destekli yoğunluk fonksiyonları için yazılmış kestiricilerin bütünleşik hata kareleri ortalaması ve ortalama karesel hata (MSE) yakınsaklık hızları incelenmiştir. Delta dizilerinin kullanılması, literatürde daha önce Hermite serileri yardımıyla yazılmış kestiriciler için elde edilen sonuçların iyileştirilmesini sağlamıştır. Beşinci bölümde ise çekirdek metodu çalışılmıştır. Çekirdek metodu parametrik olmayan kestirim metodlarından en yaygın olanıdır. Bu metodda, çekirdek genellikle simetrik olup, çekirdek seçiminin band genişliği seçiminden daha az önemli olduğu düşünülmektedir. Ancak, yoğunluk fonksiyonu kompakt ya da yarı sonlu desteğe sahip olduğunda klasik simetrik çekirdekler ile yazılmış kestiriciler sınır yanlılığı sorununa neden olmaktadır. Bu problemin çözümü için literatürde birçok yöntem mevcuttur. Son zamanlarda önerilen bir yöntem ise klasik simetrik çekirdek ile yazılmış kestirici yerine asimetrik çekirdek ile yazılmış kestirici kullanmaktır. Bu tezde klasik kestirici yerine, beta prime yoğunluk fonksiyonu uygun parametrelerle çekirdek yerine kullanılarak, yeni bir asimetrik çekirdek kestiricisi önerilmiştir. Önerilen yeni kestiricinin, sınır yanlılığı problemini çözdüğü ve optimal ortalama karesel hata ve bütünleşik hata kareleri ortalaması yakınsama hızına sahip olduğu gösterilmiştir. Diğer asimetrik kestiricilerde olduğu gibi, düzlemenin yapıldığı noktadan uzakla¸stıkça varyansın azaldığı gözlenmiştir. Bu da gözlemlerin seyrek olduğu yoğunluk fonksiyonu kestiriminde avantaj sağlayan bir özelliktir. Ayrıca, simülasyon çalışmaları yardımıyla, bu kestiricinin sonlu örnek özellikleri incelenmiş ve bu kestirici ile literatürde var olan asimetrik kestiricilerin ortalama bütünleşik karesel hataları (ISE) karşılaştırılmıştır. Kalın kuyruklu yoğunluk fonksiyonları için klasik bant genişliği seçim metodlarının yetersiz kaldığı bilinmektedir. Bu nedenle, kalın kuyruklu yoğunluk fonksiyonları kestirimi için klasik bant genişliği seçim metodları yerine uyarlamalı Bayesian bant geni¸sli˘gi seçim metodu, asimetrik kestiricilerin bant genişliği için daha önce kullanılmamış bir metot olan Lindley yaklaşımı yardımıyla kullanılmıştır. Bu yaklaşımdan elde edilen bant genişlikleri ile klasik en küçük kareler çapraz geçerleme (LSCV) metodundan elde edilen bant genişliklerinden alınan ortalama bütünleşik karesel hataları karşılaştırılarak önerilen metodun kullanışlılığı gösterilmiştir. Daha sonra, elde edilen sonuçlar gerçek veriler kullanılarak örneklenmiştir. Altıncı bölümde ise ölçeklendirilmiş ters ki kare yoğunluk fonksiyonu kullanılarak yeni bir asimetrik çekirdek kestirici önerilmiştir. Bu kestiricinin asimptotik özellikleri incelenerek ortalama karesel hata ve bütünleşik hata kareleri ortalaması optimal yakınsama hızına sahip olduğu gösterilmiştir. Ölçeklendirilmiş ters ki kare kestiricisi için, bir önceki bölümde önerilen Lindley yaklaşımı yardımıyla uyarlamalı Bayesian bant genişliği seçim metodu ile elde edilen bant genişliklerinden alınan ortalama bütünleşik karesel hataları değerinin en küçük kareler çapraz geçerleme ile elde edilen bant genişliklerinden elde edilenden çok daha küçük olduğu gözlenmiştir. Simulasyon çalışmalarında ayrıca, yeni önerilen kestirici ile beta prime kestiricileri ve Birnbaum Saunders power-exponential çekirdek kestiricileri ortalama bütünleşik karesel hataları karşılaştırmaları yapılmıştır. Ayrıca, gerçek veri uygulamalarıyla yeni kestiricinin performansı incelenmiştir. Beta prime çekirdek kestiriciler için yapılan çalışmalarda sınırda omuz şekline sahip verilerin ("shoulder data") uygun olmadığı buna karşı yeni önerilen kestiricinin uygun olduğu gösterilmiştir. Böylece yeni kestiricinin beta prime kestiricisine alternatif olarak kullanılabileceği düşüncesi ortaya çıkmıştır. Son bölümde ise bu tezde elde edilen sonuçlar açıklanarak, gelecekte yapılabilecek çalışmalardan bahsedilmiştir.
Density estimation is one of the most fundamental problem in statistics. It can be simply determined as the construction of an estimate of the density function from the observed data when these observed data assumed to be a sample from an unknown probability density function (pdf). There are two approaches to density estimation problem: parametric and nonparametric. Under parametric approach, shape of the density is assumed to be unknown. Nonparametric approach relaxes this assumption since it relies solely on the data and allows the "data speaks for itself". Nonparametric density estimation problem arises in many fields, including economics, banking, genetics, climatology, hydrology, etc. That is why, the literature about density estimation methods are vast. The kernel method, orthogonal series method and delta sequence method have the major interest among many other density estimation methods. In the first chapter, a brief introduction about density estimation problem is given. The purpose and scope of this dissertation are introduced. Some of the most used methods are introduced and studies about these methods are mentioned as a literature summary. In the second chapter, background and some basic definitions used in this thesis are given. In the third chapter, delta sequence method is studied. Many work related to density estimation impose smoothness conditions on the density function f and its derivatives although there are applications in which discontinuities in f are natural. However, the assumptions of smoothness condition restricts the class of densities, so the weakening of any conditions on the density is of considerable interest in application. For this purpose, the conditions on the density functions are written by using the second order modulus of continuity type majorants. Stronger local convergency rate of the mean squared error (MSE) corresponding to d-variate delta sequence based density estimator is obtained for both univariate and multivariate cases when compared with the convergency rate of the MSE of the density estimators defined by the first order finite differences. In the fourth chapter, orthogonal series method is considered. Density function is studied by means of Hermite functions and convergency rate of the mean integrated square error (MISE) of density estimators by using delta sequences is obtained when the support of the density function is infinite. Then, convergency rate of the MSE and MISE of estimator are obtained for the densities having compact support. The results of former publications about rate of convergence of estimators based on Hermite series are improved. In the fifth chapter, the kernel method is examined. In this method, a kernel is usually considered as symmetric and it is widely believed that kernel is of minor importance xix than the smoothing bandwidth. But, when the estimated density has compact or semi-infinite support, classical kernel estimators give rise to boundary bias problem. To avoid boundary bias problem, a new asymmetric kernel estimator is proposed by using beta prime distribution as kernel. Finite sample properties investigated and comparisons are made with other asymmetric kernel estimators in terms of average ISE via Monte Carlo simulations. In addition, adaptive Bayesian bandwidth selection with Lindley approximation method proposed which is new for the asymmetric kernel estimators. Then, it was shown that, the average ISE of the new estimator with this new approach has better performance in comparison to the classical least squared cross-validation method. Also, real data applications are performed to illustrate the potential usefulness of the proposed estimator. In the sixth chapter, asymmetric kernel density estimation method is studied for the densities defined on the positive real line. Scaled inverse chi-squared density function is used to construct a new kernel estimator. The adaptive Bayesian bandwidth selection with Lindley approximation which is proposed in the previous chapter is used for the numerical studies. Then, the average ISE comparisons are made using different methods for the kernel estimators under consideration. Real data applications are made to illustrate potential usefulness of the scaled inverse chi-squared estimator. Those applications demonstrated that the proposed estimator is capable to reproduce the shoulder near zero, unlike the beta prime estimator. Therefore, it can be used as an alternative to beta prime kernel estimator for this kind of data sets. Finally, last chapter devoted to the conclusions.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2019
Thesis (Ph.D.) -- Istanbul Technical University, Institute of Science and Technology, 2019
Anahtar kelimeler
Matematik, İstatistik, Mathematics, Statistics
Alıntı