Destek Vektör Makineleri Yardımıyla Tüketici Kredilerinin Sınıflandırılması

thumbnail.default.placeholder
Tarih
2016 -11-16
Yazarlar
Kaya, Kayahan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Son yıllarda sürekli geliştirilen bilgisayar teknolojileri sayesinde işletmeler oldukça fazla sayıda veri üretmiş ve işletmelerin sahip oldukları veri tabanı sistemlerinin hacimlerinde büyük miktarda artışlar yaşanmıştır. Veri üretiminde yaşanan bu artış, ihtiyaç duyulan bilgilerin ayrıştırılarak ortaya çıkarılması gereksinimini doğurmuştur. Bunun bir sonucu olarak, depolanan bu verilerin içinden yararlı olma potansiyeline sahip olanlar keşfedilip anlamlı örüntüler ortaya çıkarıldığında ise çoğu kişi tarafından bilinmeyen, işletmelerin stratejik kararlarını alırken kullanabilecekleri, çağın rekabet koşullarına ayak uydurabilecekleri ve dolayısıyla bu sayede rakiplerine avantaj sağlayabilecekleri bilgilerin yaratılmasına olanak sağlanmıştır. Bu nedenle, şirketler için ihtiyaçlarına karşılık verebilecek çözümlerin bulunması, kullandıkları veri tabanlarının diğerlerinden ayrılarak doğru bilgiye ulaşmaktan geçmektedir. İçinde bulunduğumuz çağın teknoloji ve bilgi çağı olduğu düşünüldüğünde de, işletmelerin kararlarını doğru ve zamanında alabilmeleri ve bu kararların uygulanması aşamasında şirket yapılarına uygun doğru yol haritalarının oluşturulabilmesi bu bilgilerin ortaya çıkarılması ile mümkündür. Bu nedenle, bu bilgileri ortaya çıkarmada kullanılacak veri madenciliği gibi güçlü araçlara ihtiyaç vardır. Bu aşamada veri madenciliğinin tanımının yapılmasında fayda görülmektedir. En basit anlamda veri madenciliği ham veriden daha önceden bilinmeyen anlamlı verilerin elde edilmesidir. Örneğin, bir giyim firmasının müşterilerinin hangi ürünleri birlikte aldıklarını analiz ederek ortaya çıkarması ve müşterilerine bu eğilimlere göre kampanyalar sunması veri madenciliğine bir örnek olarak gösterilebilir. Bu örneğe ek olarak, daha detaylı bir inceleme yapıldığında veri madenciliğinin iş dünyasında pek çok alanda sık sık başvurulduğu kolaylıkla farkedilebilir. Bu nedenle bir diğer örnek ise internet üzerinden kitap satışı yapan sitelerden örnek verilebilir. Veri madenciliği sayesinde bu sitelerde tüketicilerin daha önce satın aldığı kitaplardan yola çıkarak bu kitapların türleri ve bu kitabı alan müşteri segmenti belirlenerek bu müşteriye uygun diğer kitaplar süzülerek müşterinin tercihine sunulabilmektedir. Dolayısıyla bu yöntem şirketlerin müşterilerine yönelik onların ihtiyaçlarını ve tercihlerinin göz önünde bulundurulmasıyla özgün pazarlama yöntemlerinin oluşturulmasını sağlamıştır. Şüphesis ki bu yöntem rakiplerinin yanında veri madenciliğini etkili olarak kullanan şirketleri bir adım öne taşımaktadır. İşte bu noktada, veri madenciliği yöntemleri bilgileri ortaya çıkarmada istatistiksel analiz ve kurulan modeller ile makine öğrenmesi yöntemlerini uygulamaktadır. Bu tezde, istatistik ve makine öğrenmesi yöntemlerini kullanan Destek Vektör Makineleri aracılığı ile tüketici kredileri sınıflandırılmaya çalışılmıştır. Konunun daha kapsamlı olarak ele alınabilmesi için çalışmada öncelikle Veri Madenciliğinin tarihçesi üzerinde durulmuş, tanımı yapılmış, kullanım alanlarından ve son olarak da adımlarından bahsedilmiştir. Daha sonra ise, veri madenciliği teknikleri arasında yer alan ve makine öğrenmesi olarak da adlandırılan yapay öğrenme yöntemlerinden Destek Vektör Makinelerinin teorik alt yapısı ayrıntılı olarak incelenmiş ve Destek Vektör Makinelerinin bir uygulaması gerçekleştirilmiştir. Ayrıca Destek Vektör Makinelerinin türleri hakkında ayrıntılı bilgiler verilerek uygulama kısmında kullanılan çeşitli kernel çekirdek fonksiyonları üzerinde durulmuştur. Bu çalışmanın diğer bir ayağı olarak tüm bu konuların uygulamadaki sonuçlarının da incelenip detaylandırılmasının sağlanması açısından bir saha çalışmasının sürdürülmesinde fayda görülmüştür. Bu sebeple çalışmanın uygulama kısmı kapsamında , Türkiye’de faaliyet gösteren bir mevduat bankasına ait kredi verileri kullanılarak tüketici kredileri yüksek riskli kredi veya düşük riskli kredi şeklinde ikili olarak sınıflandırılmaya çalışılmıştır. Söz konusu çalışma için 524 adet müşterinin verileri toplanmış olup, her bir müşteri için 9 değişken, kurulan modellerde kullanılmıştır. Tüm modellerde öncelikle veri setinin %66’sı eğitim verisi, %33’ü ise sınıflandırma başarısını ortaya koyan test verisi olarak kabul edilmiş ve bu doğrultuda modeller oluşturulmuştur. Kurulan modellerde farklı kernel çekirdek fonksiyonları kullanılmıştır. Tezin üçüncü kısmını ise tüm bu verilerin kapsamlı olarak ele alınarak bir analizin gerçekleştirilmesi oluşturmaktadır. Analiz kısmında ise farklı çekirdek fonksiyonları aracılığı ile oluşturulan Destek Vektör Makineleri modellerinin performansları karşılaştırılmış olup en yüksek sınıflandırma yüzdesine sahip çekirdek fonksiyonu belirlenmiştir. Elde edilen sonuçlar ışığında da radyal kernel çekirdek fonksiyonu aracılığı ile kurulan modelin bu uygulama için en başarılı sınıflandırma sonucunu veren destek vektör makinesi çekirdek fonksiyonu olduğu sonucuna varılmıştır. Ayrıca, çeşitli çekirdek fonksiyonları aracılığı ile elde edilen sınıflandırma sonuçları literatürde oldukça sık kullanılan Lojistik Regresyon ve Yapay Sinir Ağları yöntemleri ile de karşılaştırılmıştır. Bu karşılaştırma sonucunda da radyal kernel çekirdek fonksiyonu aracılığı ile kurulan modelin Lojistik Regresyon ve Yapay Sinir Ağları yöntemleri aracılığı ile kurulan modellere göre daha başarılı sınıflandırma yaptığı sonucuna ulaşılmıştır. Son olarak, yapılan teorik çalışmalardan ve bu çalışmaların uygulanması aşamasında oluşturulan bilgilerin analizlerinden elde edilen tüm bu sonuçlar özetlenmiş olup ve Destek Vektör Makinelerinin tüketici kredileri alanındaki uygulanabilirliği tartışılmıştır. Destek Vektör Makinelerinin kredi sınıflandırmasında alternatif bir yöntem olarak kullanılabileceği düşünülmektedir.
Over the few past years, as it is all known science and technology has developed and improved day bay day in every aspect of human’s life. There is no doubt that, one of the most professionalized development of science can be observed in the area of computer technologies. Today, thanks to the computer technologies which develop progressively, it can be recognized huge amount of increases in the volumes of data base systems. Although these advancements in the data base systems can be accepted beneficial at first sight, it cannot be wrong to consider that finding true, proper and applicable information among the total sum of data especially for the companies which use those information is getting harder and complicated in time. All of these complexities because of the increasing number of data base, created the necessity of separate information and data which are needed for different companies and different purposes. As a result of this need, when the data which have the potential of being beneficial are discovered among the others and meaningful patterns are created by using these data, it helps the creation of information which will provide plenty of benefits to companies to use while taking strategic decisions for their future, to adopt the developing conditions of their ages and finally to make themselves superior to their competitors. For this reason, it can be said that for companies finding the best solutions to their needs is highly possible by differentiating their data bases from others to reach the true information. When the age that we have been experiencing is considered as technology, science and information, taking right and proper decision in time and implementing those decisions by composing sustainable road maps which fit to their structure for enterprises is only possible by realization of above mentioned information. Within this framework, most of the enterprises and companies need powerful tools such as data mining in order to provide a successful meaning of the realization of this information. At this stage, it is needed to make a definition of data mining in order to provide a better comprehension towards the main purpose of this Thesis. In the simplest term, data mining means obtaining meaningful data, which has not been discovered before, from crude data. To better explain what data mining is, it will be beneficial to illustrate it with an example. For example, thanks to data mining one clothing company which operates in Turkey can filter the informatıon about its customers such as which customer combines which cloting to another and buy them at the same time. Thanks to this facility it can create a path to follow to determine characteristics of its customers. So that it can advance its marketing strategy by using this information and apply different strategies on different customer segments and clothing categories which will increase the profit of company at the end of the day. Also, this company can presents campaigns to its customers according to their tendencies and preferences under the light of these information. This example clearly explain how data mining can be applied every single area of business world. Besides this method clearly advantage companies to take their brands one step further compared to their competitors in the sector that they locate in. In addition to this example when it is detaily examined it can be realized that data mining can be applied in very different areas of the business world. Another example occurs in the book selling websites. Data mining can help to customize customers shopping in the bookselling websites by determining which customer like what kind of books by considering and filtering the information about the one single customer’s shopping habits throughout time. Determining the preferences of its customers thanks to data mining will take the companies one step further while composing their market strategies. At that point, data mining method uses “statistical analysis and established models” and “machine learning” methods to reach best and the most suitable information. At this part of this summary, in or der to better explain the aim of this Thesis it is needed to give a brief information about the structure of Thesis. First of all it should be stated that throughout the Thesis, it is struggled to define what the data mining is, for which purposes it can be used, how can it implied to the information gathering to determine the beneficial and main strategies for the enterprises and companies. To begin with, main purpose of this Thesis is to classify consumer loans by means of support vector machines by using “statistical analysis” and “machine learning” methods. In this study, first of all data mining is described, the history of data mining is explained, and usage areas and lastly steps of data mining are mentioned. In addition, theoretical structure of Support Vector Machines, which is one of the sub structure of the methods of data mining such as “statistical analysis” and “machinery learning”, is examined in a very detailed way. Additionally, an implementation for Support Vector Machines is realized within the scope of this Thesis. In addition to all of this analysis as a component of this Thesis, a detailed information about the types Support Vector Machines is provided. Additionally, an implementation for Support Vector Machines is realized within the scope of this Thesis. In addition to all of this analysis as a component of this Thesis, a detailed information about the types Support Vector Machines is provided. Also, kernel core functions used in the application parts are emphasized. Second of all, in order to deal with the topic more detail way and to create of more comprehensive understanding it should be stated the importance of implementing all of the above mentioned analysis into a real life. It can be considered that this part is the most important part of the thesis in order to show how data mining can be implemented to the real life, how can it be beneficial and what kind of results can be obtained by this implementation. At that stage, consumer loans are classified into two main categories as high risk loans and low risk loans by using data of deposit bank which is operated in Turkey. In order to conduct this research data of 524 customers are collected and 9 variables in total are operated for every and each customers via different models in order to reach results. While creating all of these models, first of all 66% of data set are accepted as training data. Similarly %33 of those data sets are accepted as testical data proving the achievement of classification. For this reason, models are composed by considering all of those information. Within the scope of these established models, different kernel functions are applied. The third part of this Thesis is consist of an overarching analysis of the data gained on the light of all above mentioned studying. Within the framework of this analysis part a comparison is applied in terms of the volumes of performances different Support Vector Machines. As a result of this comparison the core function which possesses the highest performance percentage is determined. Under the lights of these obtained results, It is understood that this model which is established via radial karnel core function is actually the support vector machine core function which provided the highest classification results for this application. In addition to the above mentioned studies, within the scope of this Thesis, the results obtained as a result of different core functions are compared with the methods which are called “Logistical Regression and Artificial Neural Networks” method. It should be stated that “Logistical Regression and Artificial Neural Network” method is one of the most applied method in the literature. As a result of this comparison an interesting result has occurred that the model which is established via core function is more successful than the model which is established by applying the “Logistical Regression and Artificial Neural Network” while creating classifications to gain the information and best options to reach applicable and proper results although “Logistical Regression and Artificial Neural Network” is one of the mostly utilized method in the data mining process. In the final part of this Thesis, the information created as a result of all of theoretical and practical studies and analysis of those are summarized and application of Support Vector Machines into the area of customer loans is discussed to draw a path to make assumptions on whether this method is applicable to provide benefits to develop the working capacity of enterprises and companies or not. If the results of those discussions should be evaluated an assumption can be inferred from the results that Support Vector Machines can be used an alternative method to the methods that have always been used, especially in the process of loan classification. All in all, from all the studies and examples covering theoretical and practical perspectives which are handled within the framework of this Thesis aim at determining the applicability of data mining to the business world via different methods to create a specialization for the companies and enterprises in the areas that they operates and it also proves that data mining can be very beneficial for those companies and enterprises in order to customize their business and increase their profit by differentiating them from their competitors.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2016
Anahtar kelimeler
Veri Madenciliği, Destek Vektör Makineleri, Sınıflandırma, Tüketici Kredileri, Data Mining, Support Vector Machines, Classification, Consumer Loans
Alıntı