Time Series Forecasting Via Computational Intelligence Methods

thumbnail.default.alt
Tarih
2016-06-28
Yazarlar
Şahin, Atakan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bilgi işlem teknolojileri son yıllarda önemli gelişmeler göstermektedir. Özellikle veri kaydetme ve işleme alanındaki gelişmeler gelecekte verilerin nasıl kullanılacağı konusunda da yol haritasını şekillendirmektedir. Günümüzde adı sıkça duyulan Nesnelerin İnterneti devrimi ile herhangi bir alanda elde edilebilecek verilerin miktarı ve içeriği önemli ölçüde değişecektir. Bu devrim farklı ülkelerde farklı adlar ile de anılmaktadır. Almanya’da Endüstri 4.0, Fransa ve İtalya’da Geleceğin Fabrikası, İngiltere’de ise Mancınık olarak adlandırılmaktadır. Temel içerik aynıdır. Bu devrimlerin sonucu olarak karşılaşılacak veri miktarındaki patlama ile veri işlemenin gerekliliği daha da belirgin şekilde hissedilecektir. Data işleme tekniklerinin gelişmesi ile birlikte bu alanın en önemli içeriklerinden biri olan tahminleme işlemlerinin daha da önem kazanacağı düşünülmektedir. En basit anlamı ile tahminleme gelecekte gerçekleşecek bir olay hakkında çıkarımlar öner sürmektir. Tahminleme etkilediği alanlar düşünüldüğünde en önemli problemlerden biridir. Ekonomi, endüstri, çevresel etkenler sadece belli başlı çalışma alanları olmakla beraber, sadece ufak bir kısmıdır. Birçok kullanımda da görüldüğü gibi tahminleme zaman serileri üzerinden uygulanmaktadır. Birçok alanda günlük, haftalık, aylık veya tanımlanacak olan herhangi bir aralık üzerinde çalışmalar sıkça görülmektedir. Bahsedilen alanların başlıca uygulamaları ise yönetim, pazarlama, risk yönetimi, süreç kontrol gibi dallarda karşılık bulmaktadır. Bahsedilenler iyi tahminlemenin gerektiği alanlardan sadece bazılarıdır. Tahminlemeyi sağlayan başlıca yapı olan tahminleme modeli, daima ilgilenilen alanın gelecekteki değerlerini en iyi şekilde tahmin etmeye çalışmaktadır. Literatürde tahminleme modelleri üzerine birçok çalışma bulunmaktadır. Tahminleme modellerin başlıcaları durağan gürültüleri modellemek için önerilen Otoregresif hareketli ortalamalar modeli (ARMA) ve durağan olmayan gürültüleri modellemek için önerilen Otoregresif bütünleşik hareketli ortalamalar modelidir (ARIMA). En çok kullanılan yöntemler bunlar olmakla birlikte karmaşık olayları modellemek için önerilen doğrusal olmayan modeller de bulunmaktadır. Tüm bu modellerin temel amacı ise hatasız modelleme sağlayabilmektir. Bu beklenti genelde boş çıkmaktadır çünkü mükemmel model diye bir karşılık neredeyse imkânsızdır. Bu durumu ifade etmek için ise hata tanımı yapılmıştır. Hata, tahmin değeri ile gerçek değer arasındaki farkın karşılığıdır. Genelde iyi bir tahminlemenin yanında sağlanacak olan hata bandı tahmini son kullanıcı için oldukça önemlidir. Tanımlanan hata bantları aynı zamanda tahminlemenin, tahminleme yapılan zamanda ne kadar hata yapılabileceği ifade etmektedir. Hata bantların içinde en yaygın kullanıma sahip olan iki yapı Güven Aralığı ve Kestirim Aralığı’dır. Güven Aralığı, kestirimlerin parametrik doğruluğu konusunda çıkarımların yapılmasını sağlarken Kestirim Aralığı ise kestirimlerin hedef değerler ile karşılaştırılarak tutarlılıkları konusunda çıkarımlar yapmaktadır. Bu kapsamda Kestirim Aralığı ve Güven Aralığı, tanımlanan güven seviyesi (confidence level) doğrultusunda gelecek tahminleri etrafına onları çevreleyecek bir aralık değeri üretmektedir. PI, karar verici kişi veya sistemlere tanımlanan güven seviyesi doğrultusunda tahminlerin değerlendirme imkânı sunar. Teoride geniş Kestirim Aralığı, çalışılan sistemin gelecek tahminlerinin yüksek belirsizlik belirttiğini ifade etmektedir. Diğer taraftan dar Kestirim Aralıkları karar verici sisteme gelecek tahminlerin oldukça güven içinde yapıldığını ve belirsizliklerin olmadığını ifade etmektedir. Üretilen bu bantlar karar verici sistemin gereksiz riskli hareketlerden kaçınmasını sağlayarak, belirsizlik içeren durumlarda karar verici sisteme yardımcı olur. Kestirim Aralığı tahminlemeler için hayati olduğu düşünüldüğünde bu konu üzerinde birçok çalışma yapılması gerektiği ve yapıldığı fark edilebilir. Literatürde Kestirim Aralığı bandı üretimi konusunda birçok çalışma vardır bunlardan başlıcaları ise Bayes tekniği, bootstrap, ortalama-varyans kestirimi, alt ve üst bant kestirim metodudur. Kestirim aralığının başlıca sorunlarından biri ise simetrik olarak olmasını sağlayacak tek bir değerin üretilmesi tahminlemenin etrafına artı ve eksi olmak üzere ilave edilmesidir. Birçok durumda tahminlemenin gerçekleşenden fazla olarak devam etmesi (üstte kalma) ve tam tersi (altta kalma) durum uzun süreçler boyunca devam etmektedir. Bu durumda simetrik bantların fayda sağlayıp sağlamadığı tartışmalara açık bir konudur. Bu tez kapsamında, tahminleme hataları ve belirsizlikleri ifade etmede bahsedilen hata bantlarından yeni ve alternatif bir yöntem önerilmektedir. Önerilen yapı Üçgen Bulanık Sayılar aracılığıyla bulanık mantık tabanlı alt ve üst bant kestirici ile bulanık dilsel terimlerin üretilmesi ve ifade edilmesidir. Farkedileceği üzere önerilen yapı temel olarak Bulanık Mantık üzerine kurulmaktadır. Bulanık mantık tabanlı sistemler kontrol, robotik, görüntü işleme, karar verme, tahmin, modelleme gibi birçok farklı mühendislik uygulanasında başarıyla uygulanmıştır. Bulanık Mantık uygulamaları sunulan alanlar içinde özellikle belirsizlik modelleme özelliği ile öne çıkmaktadır. Bu doğrultuda, karar verici sistemleri desteklemek ve belirsizlikleri daha uygun bir şekilde modellemek adına, 2 farklı dilsel terim üretim yaklaşımı bu tez kapsamında sunulacaktır. Sunulan yaklaşım ile tahminlemeler ve onlar için üretilmiş Bulanık Üçgen Sayılar aracılığıyla kazandıkları bulanık dilsel terimler ve aitlik dereceleri aracılığıyla, tahminleme doğrulukları daha efektif bir şekilde değerlendirilebilmektedir. Önerilen iki yapıda temelde Kestirim Aralığı ile aynı işlevde olan FLUBE’u kullanmaktadır. Bunun yanında Bulanık Üçgen Sayıları üretecek olan kısımda ise ekstradan bir modelleme ile temel sunu olan dilsel terimlerin üretilmesi ve ifadesi ve bu versiyonun geliştirilmiş halidir. Tez içeriksel olarak öncelikle zaman serileri konsepti ve bunların analizine değinmektedir. Analiz yöntemleri, tahminlemenin temelleri ile birlikte aktarılmaktadır. Günlük hayatta da sıklıkla kullandığımız zaman serisi kavramı, tahminlemenin de temelini oluşturmaktadır. Kavramlarda bu doğrultuda verilmektedir. Zaman serilerinin analizi ise tahminlemenin temelini oluşturmaktadır. Özellikle durağanlık kavramının önemi üzerinde durularak bir sonraki aşama olan modelleme kısmına nasıl geçilebileceği konusunda fikirler de bu giriş bölümünde verilmektedir. Tahminleme esas önemli kısım olan modelleme yöntemleri de bu kavramlarla birlikte ilk bölümlerde anlatılmaktadır. Modelleme yöntemleri literatürde oldukça geniş olarak işlenmesine karşın tez kapsamında ve literatürde en çok kullanılan yöntemlerin aktarılması amaçlanmıştır. İkincil olarak ise tahminleme ve bağlı alanlarda sıklıkla kullanılan hata tanımları üzerinde durulmaktadır. Hata tanımlamaları bir tahminlerme yöntemini değerlendirmede en önemli birim olmakla beraber birçok çeşidi bulunmaktadır. Bunların arasından kullanımı en yaygın ve güncel yöntemlerin literatürdeki karşılıkları bu bölümde aktarılmaktadır. Hata değerlendirmelerinin yanında tezinde başlıca kapsamında bulunan hata bantları hakkında bilgilendirme ve özellikle Kestirim Aralığı hakkındaki literatür özeti takip eden başlığında yapılmaktadır. Devam edene başlıklarda ise yine sunulan yöntemin gelişmesinde vaşlıca etken olan kavramlar aktarılmaya devam etmektedir. Bulanık mantık bunlardan bir diğeri olmakla beraber tezin gelişimindeki her aşamasında katkısı görülmektedir. Bulanık mantık 1965 yılında önerilmiş ve özellikle belirsizlikleri modellemede oldukça etkili olan matematiksel bir araçtır. 1965’ten günümüze kullanımı oldukça yaygınlaşan bu araç günümüzde özellikle dil ve kelime işleme gibi insan-makine etkilişimindeki belirsizlikleri modellemede kullanılmaktadır. Tez kapsamında yine belirsizlik modelleme özelliği kullanılacak olan Bulanık Mantık, aynı zamanda dilsel terim karşılığı üretmede de yardımcı olacaktır. Önerilen yapıların oluşturulmasında katkıda bulunan bir diğer kavram olan Bulanık Zaman Serileri ise belirsizlikleri ifade etmede zaman serilerini kullanmaktadır. Bu yaklaşım ile zaman serilerinin Bulanık Üçgen Sayıları ile veya farklı dilsel terimler ile de ifade edilebileceği keşfedilebilmektedir. Bulanık modelleme teknikleri ise özellikle belirsizliklerin modellenmesi önemli bir araç olarak tez kapsamında kullanılmıştır. Bu kapsamda iki adet bulanık modelleme tekniği aktarılmaktadır. Tüm bu ön kavramların devamında ise önerilen yöntem olan bulanık mantık tabanlı alt ve üst bant kestirici ve bulanık mantık tabanlı alt ve üst bant kestirici yardımıyla dilsel terim üreteci olarak kullanılan yaklaşımları en son bölümde aktarılmadır. Son olarak ise sunulan yöntemlerin görsel olarak da gösteriminin sağlandığı deneysel çalışmalar yapılmıştır. Deneysel çalışmalar için farklı veri setleri kullanılmıştır. Sunulan yöntemler, klasik Kestirim Aralığı ile karşılaştırmalı olarak farklı veri setleri üzerine uygulanmıştır. Kestirim Aralığı karşılaştırmasında önerilen yapının ilk kısmı ile karşılaştırma söz konusudur. Bulanık mantık tabanlı alt ve üst bant kestirici hataları modelleyerek Kestirim Aralığının sunduğu bilgiye alternatif olmayı amaçlamakta ve sağlamaktadır. Bunun yanında karar verici sistemlerin dilsel olarak tahminlerini ve aynı zamanda hata bantlarını değerlendirebileceği dilsel terim üreticilerinin çıktıları olan Bulanık Üçgen Sayılar aracılığıyla tahminleme hakkında çıkarımlar yapılabilmektedir. Burada Bulanık Üçgen Sayıların aitlik değerlerinin ortalamaların bir çıkarım olarak kullanılabileceği görülmektedir. Sunulan yöntemlerin tasarı adımları bu bölümden de sırasıyla takip edilebilir. Tez kapsamında sunulan yapılar aracılığıyla özellikle tahminleme yönteminden bağımsız olarak sadece hataları modelleme üzerine sunulan yöntem ile hataların doğrusal olmayan modelleme tekniği olan bulanık mantık araçları ile modellenmiştir. Modellenen hatalar klasik Güven Aralığının aksine simetrik değilken daha da dar olması sebebiyle karşılaştırma dahilinde klasik Kestirim Aralığına üstünlük kurabilmektedir. Önerilen yapının dilsel terim üretme araçları sayesinde ise son kullanıcıların gerçekleşen veriler aracılığıyla üretilen hata bantlarının kalitesini inceleyebilecekleri, klasik Kestirim Aralığının değerlendirme yöntemi olan içeride dışarıda (0-1) değerlendirmesi aksine yeni bir değerlendirme yöntemi sunulmuştur. Bulanık üçgen sayılar ile ifade edilen yeni aralıklar sayesinde tahminlemeler birer aitlik değerine sahip olurken, bunların toplu olarak değerlendirilmesi sonucunda tahminleme ve hata bantları birbiri ile aitlik değerleri bağlantısıyla tahminlemenin kalitesi konusunda son kullanıcıya bilgilendirme yapabilmektedir.
Information technologies have many improvements about data storage and its usage in the last decades and it will have more according to technological breakthroughs. Data storage and data obtaining will be much easier than now after the Internet of Things revolution. This revolution can call as differently according to governed country. It named as Industry 4.0 in Germany, the Factory of the Future in France and Italy and Catapult in United Kingdom. The data explosion will also make the data analysis techniques especially in forecasting more important. A forecast is a prediction of some future things or events. Forecasting is an important problem that link many fields such as economics, industry, environmental sciences and much more. Most of usage, the forecasting involves from the time series data. Many applications of forecasting about the business exploit daily, weekly, monthly or any defined interval of the data. These applications can be listed in the areas such as operations management, marketing, finance and risk management, economics, industrial process control and, demography. These are only a few where forecast is required to make good decisions. The forecast model always aims to represent best estimate of the future value of the variable of interest. As it might be expected, these forecasts are not always accurate. Therefore, there is a definition between estimated and real data values named as forecast error. Eventually, it is a good practice to accompany a forecast with an estimate of the error bounds to represent the interval about how large a forecast error might be expected. Prediction Interval (PI) and Confidence Interval (CI) are the most used ones for representing the errors. The CIs handle with the accuracy of the prediction of the regression while the PIs consider the accuracy with the prediction to the targets values. A PI is constructed from interval bound that covers the future unknown value with a prescribed probability called a confidence level. The availability of PIs allows the decision makers to quantify the level of uncertainty associated with the point forecasts. A relatively wide PI indicates the presence of high level of uncertainties in the underlying system operation. On the other hand, narrow PIs give the decision makers the opportunity to decide more confidently with less chance of confronting an unexpected condition in the future. This useful information can guide the decision makers to avoid the selection of risky actions under uncertain conditions. Thus, the construction of PIs has been a subject of much attention. Thus, different methods haven been proposed for the construction of PIs such as delta technique, Bayesian technique, bootstrap, mean-variance estimation, lower and upper bound estimation method. In this thesis, alternative approach to the error bounds will be represent. Fuzzy linguistic term generation and representation via Fuzzy Logic based Lower and Upper Bound Estimator (FLUBE) based Triangular Fuzzy Number (TFN) is presented to estimate the uncertainty in the forecast. As it can be noticed via the titles, the thesis mainly based on the fuzzy logic. Fuzzy logic has been successfully implemented in various engineering areas including control, robotics, image processing, decision-making, estimation and modelling. Therefore, the proposed representation includes two different methodologies which will give the opportunity to the decision maker to quantify the uncertainty of the point forecasts with linguistic terms which might increase the interpretability. Moreover, the proposed approaches will provide valuable information about the accuracy of the forecast by providing a relative membership degree with respect to the target data. The proposed approaches consist of two main phases, the offline FLUBE design and the online TFN generation part as Linguistic Generation and Representation Approach (LinGRA) and Enhanced Linguistic Generation and Representation Approach (ElinGRA). In the context of the thesis, firstly, the time series concept and its analysis methodologies are discussed in addition to the basic information of the forecasting. Time series concept is also a basis of forecasting especially in our daily life’s events. Therefore, the components and characteristics of the time series are handled to be a light for the time series analysis. The modelling techniques is the key factor of the forecasting models and the error evaluations of the forecasts. They are handled as concisely to give information as much as needed. Secondly, the error terms obtained from the real data values and the forecast models’ outputs are modelled via the fuzzy modelling approach. Thanks to both fuzzy model, the error bounds can shape as nonlinear and nonsymmetrical conversely the classical erro bounds like PI. Furthermore, the forecasting error bounds, fuzzy logic systems, fuzzy time series and fuzzy modelling approaches are introduced as the basis of the proposed linguistic term generation approaches. The methodologies have differences on the determination of the linguistic terms phase that also illustrated as comparatively. Finally, the linguistic forecast generation approaches are used on the several data sets in comparison with conventional PI bounds to prove the efficiency. The methodologies can also follow at the part named as experimental results. Thanks to the membership degree of the proposed linguistic terms, the error evaluation of the forecast can be done with fuzzy numbers. Rather than the classical PIs, the proposed bounds utilize the realized value of the project not only bound-in or out consideration but also grading the forecast via the triangular fuzzy numbers. Therefore, the decision can have the opportunities to critize the last forecasts and their methods.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2016
Anahtar kelimeler
Tahminleme, Zaman Serisi Tahminleme, Tahminleme Aralığı, Bulanık Mantık, Bulanık Sayılar, Bulanık Modelleme, Bulanık Zaman Serileri, Bulanık Dilsel Terimler, Forecasting, Time Series Forecasting, Prediction Interval, Fuzzy Logic, Fuzzy Numbers, Fuzzy Modelling, Fuzzy Time Series, Fuzzy Linguistic Terms
Alıntı