Fuzzy clustering based ensemble learning approach: Applications in digital advertising

thumbnail.default.alt
Tarih
2021
Yazarlar
Tekin, Ahmet Tezcan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Although the history of machine learning algorithms is quite old, it has been popularly used in the last ten years. The main reason for this situation is that it has become possible to run these algorithms even on our personal computers with the developing computer hardware technology. In addition, the size of the data generated in the internet environment is increasing exponentially with each passing day, with digitalization and internet usage becoming more widespread. Therefore, the need for technologies such as big data and machine learning is increasing day by day. In line with the increasing demands, machine learning has become an indispensable need in academia and the private sector. Thanks to machine learning, companies make predictions about their future processes, thus aiming to eliminate future uncertain situations and create more effective process management. E.g., A company seeks to use its marketing budget more effectively by using machine learning technologies for its marketing processes and thus maximizing its profitability rate. In recent years, there have been many studies in the literature on the development of machine learning algorithms and the elimination of the weaknesses of traditional machine learning methods. Regardless of the type of problem in the prediction process, the aim is to predict with a minimum error rate. In this context, many methods have been tried. The ensemble learning approach is one of the most successful methods in the literature, proving its success for this purpose. The purpose of ensemble learning is to combine multiple algorithms to close each other's weaknesses and increase the success rate in prediction. Observations on the dataset to be estimated may be characteristically similar or very different from each other. In this case, in many studies in the literature, the clustering process is performed before applying machine learning algorithms, and then the modelling stage is started. In such approaches, hard clustering approaches are used. Hard clustering approaches assign each observation value to only one cluster due to their working principles. Therefore, the sizes of the subsets to be modelled in some cases do not reach the size of the training set required for higher prediction success to occur. Considering that an observation value contains the characteristics of more than one cluster simultaneously, it is seen that the soft clustering approach is used to eliminate this problem. Although there are many studies in the literature on the fuzzy clustering method, which is a part of the soft clustering approach, there are not many examples in the literature regarding the use of the machine learning approach as an intermediate method in terms of improving its results. In this thesis, after the fuzzy clustering approach applied to the observation set with three published essays, it is aimed to ensemble the most successful models of each cluster, taking into account the error rates and thus improving the model performances. To test the validity of this approach, different studies were carried out for both regression and classification problems with datasets obtained from different sectors. In the first study, click and sales predictions were realised using digital advertisement performance data and reservation data in metasearch engines of an online travel agency operating in Turkey. This prediction is crucial for the company's short, medium and long-term financial goals. In this study, the traditional regression method and the proposed fuzzy clustering approach were used together and the results were compared with the results of the traditional methods. Machine learning algorithms were applied directly to the dataset, which had been applied data preprocessing and feature engineering within the framework of traditional methods. Then the modelling study was carried out again after the hard clustering and soft clustering approaches were applied to the dataset. As a result, although the processing load increased due to the inclusion of the clustering approach in addition to the modelling stage, more effective results were obtained than applying machine learning algorithms directly to the dataset. At the same time, the results obtained after the hard clustering approach and fuzzy clustering approaches were compared. It was observed that the success rate of the predictions made after the fuzzy clustering approach was higher. In the second study, the approach proposed in the first article is tested for solving a different problem with different sector data. In this study, it has been tried to predict the lifetime value of the customers by using the game data and session information of the users of a mobile crossword puzzle game published in more than thirty languages and more than thirty countries. Ensemble learning algorithms, which were not used in the first article, were examined in more depth and focused on algorithms that could achieve higher prediction success rates when used together with fuzzy clustering. Different hyperparameter combinations of Catboost, Extreme Gradient Boosting and Light Gradient Boosting algorithms, which are seen in the literature to be generally more successful than traditional machine learning algorithms, were tested separately for each cluster after the clustering phase performed with the Fuzzy C-Means clustering algorithm. The prediction values of the three most successful of these combinations were weighted to be inversely proportional to the error rates, and the error rates of the resulting predictions were compared with the results of other model-parameter combinations. It has been determined that the model established with the proposed method has a lower error rate than other models, thus making a more efficient prediction. In the third study, customer retention rate prediction was carried out with a different dataset collected in the gaming industry. Unlike the first two studies, in this study, a classification problem was tried to be solved with the proposed method, at the same time, different cluster initial parameters and different fuzziness parameters were tested. The aim is to obtain a more optimal clustering in the Fuzzy C-Means clustering approach, and the clustering process was the most successful combination. Since the nature of the problem is a classification problem, the prediction was carried out by weighting the accuracy results instead of the error rates of the algorithms at the stage of combining the results of the algorithm-parameter combinations. As a result of this study, it has been observed that the results of the method applied on different clusters clustered with the fuzzy clustering approach produce more effective results than applying machine learning algorithms directly to the dataset. As a result, this thesis provides the opportunity to make more successful predictions in datasets with different characteristics by strengthening the concept of ensemble learning, which has an important place in developing machine learning approaches with fuzzy clustering approaches. In addition, it allows identifying observation sets that contain the characteristics of more than one cluster simultaneously and to model in separate clusters during the modelling phase to create more effective prediction results. In this constantly developing field, new studies can progress from many branches. First of all, in the fuzzy clustering stage, instead of the Fuzzy C-Means clustering method, other alternative fuzzy clustering approaches in the literature can be tried again during the modelling stage. And a different fuzzy clustering algorithm can be preferred according to the efficiency result. At the same time, it may be possible to change the weight coefficients with different methods or shapes at the stage of combining the results of the most successful models. Beyond all this, this method will enable to produce more effective results by using it together with new machine learning algorithms that will be introduced to the literature in the future.
Makine öğrenmesi algoritmalarının geçmişi oldukça eskiye dayansa da popüler olarak kullanıma son on yılda başlanmıştır. Bu durumun temel nedeni gelişen bilgisayar donanım teknolojisi ile kişisel bilgisayarlarımızda dahi bu algoritmaları çalıştırmak mümkün hale gelmiştir. Ayrıca, dijitalleşme ve internet kullanımının her geçen gün daha yaygın hale gelmesi ile internet ortamında oluşan verinin boyutu her geçen gün katlanarak artmaktadır. Bu nedenle büyük veri ve makine öğrenmesi gibi teknolojilere ihtiyaç her geçen gün artmaktadır. Artan ihtiyaçlar doğrultusunda makine öğrenmesi sadece akademik alanda değil özel sektör içinde de vazgeçilmez bir ihtiyaca dönüşmüştür. Makine öğrenmesi sayesinde şirketler gelecekteki süreçleri ile ilgili tahminlemeler yapmakta, bu sayede gelecekteki belirsiz durumları ortadan kaldırıp daha etkin bir süreç yönetimi yapmayı amaçlamaktadırlar. Örneğin; bir şirket pazarlama süreçleri için makine öğrenmesi teknolojilerini kullanarak elindeki pazarlama bütçesini daha etkin kullanmayı amaçlamakta ve bu sayede karlılık oranını maksimize etmeye çalışmaktadır. Son yıllarda makine öğrenmesi algoritmalarının geliştirilmesi, geleneksel makine öğrenmesi yöntemlerinin zayıf yönlerinin giderilmesi noktasında literatürde birçok çalışma bulunmaktadır. Tahminleme işleminde problemin türü ne olursa olsun amaç minimum hata oranı ile tahminleme yapmaktır. Bu kapsamda birçok yöntem denenmiştir. Topluluk öğrenmesi yaklaşımı literatür bu amaç için başarısını kanıtlayan en başarılı yöntemlerden biridir. Topluluk öğrenmesinin amacı, birden çok algoritmayı birleştirerek birbirlerinin zayıf yönlerini kapatmak ve tahminlemedeki başarı oranını artırmaktır. Tahminleme yapılacak veriseti üzerindeki gözlemler karakteristik olarak birbilerine benzerlik gösterebilir ya da birbirlerinden çok farklı olabilirler. Bu durumda litetaürde birçok çalışmada makine öğrenmesi algoritmaları uygulanmadan önce kümeleme işlemi gerçekleştirilip daha sonra modelleme aşamasına geçilmektedir. Bu tür yaklaşımlarda daha çok katı kümeleme yaklaşımları kullanılmaktadır. Katı kümeleme yaklaşımları, çalışma prensipleri gereği her bir gözlem değerini yalnızca bir kümeye atamaktadırlar. Dolayısıyla modelleme yapılacak alt kümelerin boyutları bazı durumlarda yüksek başarılı tahminlemenin gerçekleşmesi için gereken öğrenme seti boyutuna ulaşamamaktadır. Bir gözlem değerinin aynı anda birden fazla kümeye ait karakteristik özellikleri barındırma durumu göz önünde bulundurulduğunda esnek kümeleme yaklaşımının bu problemi ortadan kaldırmak için kullanıldığı görülmektedir. Esnek kümeleme yaklaşımının bir parçası olan bulanık kümeleme yöntemine ait literatürde birçok çalışma olsa da makine öğrenmesi yaklaşımının sonuçlarını iyileştirme anlamında ara yöntem olarak kullanılmasına ilişkin literatürde çok fazla örnek bulunmamaktadır. Bu tezde, yayınlanmış üç makale ile gözlem setine uygulanan bulanık kümeleme yaklaşımı sonrasında her bir kümeye ait en başarılı modellerin hata oranları göz önünde bulundurularak topluluk haline getirilmesi ve bu sayede model performanslarının iyileştirilmesi amaçlanmıştır. Uygulanan bu yaklaşımın geçerliliğinin test edilmesi amacı ile farklı sektörlerden elde edilen verisetleri ile birlikte hem regresyon hem de sınıflandırma problemleri için farklı çalışmalar gerçekleştirilmiştir. İlk makalede Türkiye'de faaliyet gösteren bir çevrimiçi seyahat acentasının meta arama motorlarındaki dijital reklam performans verileri ile rezervasyon verileri kullanılarak tıklama ve satış tahminlemesi gerçekleştirilmeye çalışılmıştır. Bu tahminleme, firmanın kısa, orta ve uzun vadedeli finansal hedefleri için oldukça önem arz etmektedir. Bu çalışmada geleneksel regresyon yöntemi ile önerilen bulanık kümeleme yaklaşımı birlikte kullanılmış ve sonuçlar geleneksel yöntem sonuçları ile karşılaştırılmıştır. Geleneksel yöntemler çerçevesinde veri ön işleme ve öznitelik mühendisliği uygulanmış olan verisetine direkt olarak makine öğrenmesi algoritmaları uygulanmış, sonrasında ise katı kümeleme ve esnek kümeleme yaklaşımları verisetine uygulandıktan sonra modelleme çalışması tekrardan gerçekleştirilmiştir. Sonuç olarak modelleme aşamasına ek olarak kümeleme yaklaşımının da dahil edilmesi sonucunda işlem yük artmış olsa da verisetine direkt olarak makine öğrenmesi algoritmalarını uygulamaya göre daha etkin sonuçlar elde edilmiştir. Aynı zamanda katı kümeleme yaklaşımı ile bulanık kümeleme yaklaşımları sonrasında elde edilen sonuçlar da karşılaştırılmış ve bulanık kümeleme yaklaşımı sonrasında yapılan tahminlerin başarı oranının daha yüksek olduğu gözlemlenmiştir. İkinci makalede, ilk makalede önerilen yaklaşım farklı bir sektör verisi ile farklı bir problemin çözümü için test edilmiştir. Bu çalışmada otuzdan fazla dil seçeneği ve otuzdan fazla ülkede yayında olan bir mobil çapraz bulmaca oyununun kullanıcılarının ilk yirmidört saatteki oyun verileri ve oturum bilgileri kullanılarak müşterilerin yaşam ömrü tahmin edilmeye çalışılmıştır. İlk makalede kullanılmayan topluluk öğrenmesi algoritmaları daha derinlemesine irdelenmiş, bulanık kümeleme ile birlikte kullanılması sonucunda daha yüksek tahminleme başarı oranına ulaşabilecek algoritmalar üzerine yoğunlaşılmıştır. Bulanık C-Ortalamalar kümeleme algoritması ile gerçekleştirilen kümeleme aşamasından sonra geleneksel makine öğrenmesi algoritmalarına göre genelde daha başarılı oldukları literatürde de görülen Catboost, Extreme Gradient Boosting ve Light Gradient Boosting algoritmalarının farklı hiperparametre kombinasyonları her bir küme için ayrı ayrı denenmiştır. Bu kombinasyonların en başarılı üç tanesinin tahmin değerleri hata oranları ile ters orantılı olacak şekilde ağırlandırılarak birleştirilmiş ve sonuç tahminlerin hata oranları diğer model-parametre kombinasyonlarının sonuçları ile karşılaştırılmıştır. Önerilen yöntemle kurulmuş olan modelin diğer modellere göre daha düşük hata oranına sahip olduğu dolayısıyla daha etkin tahminleme yaptığı tespit edilmiştir. Üçüncü makalede ise yine oyun sektöründe toplanan farklı bir veriseti ile müşteri muhafaza oranı tahminlemesi gerçekleştirilmiştir. İlk iki çalışmadan farklı olarak, bu çalışmada bir sınıflandırma problemi önerilen yöntem ile çözülmeye çalışılmış, aynı zamanda Bulanık C-Ortalamalar kümeleme yaklaşımında daha optimum bir kümeleme elde edilmesi ama amacı ile farklı küme başlangıç parametreleri ile farklı bulanıklık parametreleri test edilmiş ve kümeleme işlemi en başarılı kombinasyon ile gerçekleştirilmiştir. Problemin niteliği bir sınıflandırma problemi olduğu için algoritma-parametre kombinasyonlarının sonuçlarının birleştirilmesi aşamasında algoritmaların hata oranları yerine doğruluk sonuçları ağırlıklandırılarak tahminleme gerçekleştirilmiştir. Bu çalışmanın sonucunda bulanık kümeleme yaklaşımı ile kümelenmiş farklı kümeler üzerine uygulanan yöntemin sonuçlarının makine öğrenmesi algoritmalarını direkt olarak verisetine uygulamaya göre daha etkin sonuçlar ürettiği gözlemlenmiştir. Sonuç olarak, bu tez gelişmekte olan makine öğrenmesi yaklaşımlarında önemli bir yere sahip olan topluluk öğrenmesi kavramının bulanık kümeleme yaklaşımı ile güçlendirilerek farklı karakteristik özelliklere sahip olan veri kümelerinde daha başarılı bir tahminleme yapma olanağı sunmaktadır. Buna ek olarak, aynı anda birden fazla kümenin karakteristik özelliklerini barındıran gözlem setlerinin tespit edilmesi ve modelleme aşamasında ayrı kümelerde modellenip daha etkin tahmin sonuçlarının oluşturulmasına imkan tanımaktadır. Sürekli olarak gelişmekte olan bu alanda yeni çalışmalar pek çok daldan ilerleyebilir. Öncelikle bulanık kümeleme aşamasında Bulanık C-Ortalamalar kümeleme yöntemi yerine literatürdeki diğer alternatif bulanık kümeleme yaklaşımları yine modelleme aşamasında denenip, etkinlik sonucuna göre farklı bulanık kümeleme algoritması tercih edilebilir. Aynı zamanda en başarılı modellerin sonuçlarının birleştirilmesi aşamasında farklı yöntemler veya şekiller ile ağırlık katsayılarının değiştirilmesi mümkün olabilir. Tüm bunların ötesinde bu yöntem ilerleyen zamanlarda literatüre kazandırılacak olan yeni makine öğrenmesi algoritmaları ile birlikte kullanılarak daha etkin sonuçlar üretilmesine imkan tanıyacaktır.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2021
Anahtar kelimeler
Fuzzy sistemler, Fuzzy systems, Makine öğrenmesi, Machine learning, Fuzzy algoritmalar, Fuzzy algorithms
Alıntı