Borsa İstanbul (bıst) 100 Endeksi Yönünün Ekonomi Haberleri İle Tahmin Edilmesi

thumbnail.default.alt
Tarih
2013-09-13
Yazarlar
Gündüz, Hakan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Yapılan tez çalışmasında internet sitelerinde yayınlanan ekonomi haberleri kullanılarak Borsa İstanbul (BIST) 100 endeksi günlük açılış fiyatının yönü tahmin edilmiştir. Çalışmada kullanılan haber metinleri Borsa İstanbul?daki şirketlerin resmi bildirimlerinin yayınladığı Kamu Aydınlatma Platformu (KAP) internet sitesinden ve iki finansal internet sitesinden elde edilmiştir. Haber metinlerine metin madenciliği teknikleri uygulanarak, her işlem gününe ait öznitelik vektörleri oluşturulmuştur. BIST 100 endeksine ait günlük açılış fiyatlarındaki anlamlı değişiklikler sınanarak değişim yönünü gösteren sınıf etiketleri oluşturulmuş ve bu etiketler öznitelik vektörlerine atanmıştır. Öznitelik vektörlerinin boyutunun yüksek olması ve örnek sayısının az olması nedeniyle, haber metinlerinde bulunan kelimeler üzerinde öznitelik seçimi gerçekleştirilmiştir. Öznitelik seçiminde veri kümesindeki sınıf dengesizliği ile başa çıkabilmek için, karşılıklı bilgi öznitelik seçme yöntemi ile birlikte yeniden örneklemeyi temel alan yeni bir öznitelik seçme yöntemi ortaya konmuştur. Dengeli dağılımlı karşılıklı bilgi yöntemi olarak isimlendirilen bu yöntem kullanılarak BIST 100 endeksinin anlamlı yön değişimleri %74 doğruluk ve %68,4 Makro-ortalama F-Ölçütü oranlarıyla tahmin edilmiştir. Kullanılan bu yöntem, karşılıklı bilgi, bilgi kazanımı ve Ki-kare istatistiği öznitelik seçme yöntemleri ile karşılaştırılmış ve dengesiz dağılımlı bilgi kazanımının daha az sayıda öznitelik kullanarak daha başarılı sınıflandırma sonuçları elde ettiği görülmüştür. Ayrıca kullanılan haber metinlerinin alındığı kaynaklar ve BIST 100 endeksinin günlük geçmiş açılış, kapanış ve hacim fiyatları da göz önünde bulundurularak tahmin gerçekleştirilmiştir.
In this thesis, we predicted the direction of Borsa Istanbul (BIST) 100 Index (XU 100) open price using the news articles released the day before. News articles were provided by Public Disclosure Platform of BIST and two financial websites. Text mining techniques were applied on the news articles to form feature vectors for each trading day. The significant changes of BIST 100 index open price were examined to create the class labels and these labels were assigned to input vectors available for each day. Due to the high dimensionality of inputs and small number of instances for training, feature selection on the words of the news articles was needed. In order to deal with the data imbalance problem, a mutual information and resampling based feature selection method was devised. The method considered the fact that classes were imbalanced for the stock market data and computed the MI after balancing the data, therefore we called this method of relevance computation Balanced Mutual Information (BMI). Experimental results showed that, with BMI, the significant changes in the BIST 100 Index could be predicted, with an accuracy of 74% and a Macro Averaged F-Measure of 68,4%. This balanced feature selection method were compared with three other methods, a basic Mutual Information based, Information Gain and Chi-Square feature selection and it was found out that balanced feature selection results in higher performance using a smaller number of features. Also, the effects of the news sources and the previous days price information on prediction were examined.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
Borsa yön tahmini, Bilgi erişim, Performans değerlendirme, Metin erişim, Metin sınıflandırma, Metinden öğrenme, Veri madenciliği, Örüntü tanıma, Öznitelik seçimi, Doğal dil işleme, Stock market direction prediction, Information retrieval, Text retrieval, Text categorization, Performance evaluation, Text learning, Data mining, Pattern recognition, Feature selection, Natural language processing
Alıntı