Hızlı moda sektöründe makine öğrenmesi yöntemleri ile satış miktarlarının tahmin edilmesi

thumbnail.default.alt
Tarih
2020
Yazarlar
Öztürk, Sinem
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Özet
Talep tahmini, gelecek periyottaki müşteri ihtiyaçlarını belirlemek için geçmiş verilerin kullanıldığı bir süreçtir. Bu tahmin geleceğe ilişkin olduğundan büyük oranda belirsizlik içermektedir ve bu sebeple gelecek periyot talebini kesin olarak kestirmek çoğu zaman mümkün değildir. Ancak küçük bir hata payı ile elde edilen tahminler karar vermede önemli rol oynamaktadırlar. Bu araştırma kapsamında makine öğrenmesi yöntemleri moda sektöründe faaliyet gösteren bir firma ürünlerinin talep tahmini için kullanılmıştır. Moda sektöründe üretilen ürünlerin kullanım ömrüne göre teslim süresinin uzun olması, her bir sezon için talep edilen ürünlerin çok hızlı değişikliğe uğraması, müşteri beklentilerin en hızlı ve en iyi şekilde karşılanma ihtiyacı, pazardaki rekabet gücü ve daha birçok etken özellikle bu sektördeki talep tahmininin doğru yapılmasına olan gereksinimi oldukça önemli kılmaktadır. Bununla birlikte hava şartlarına karşı çok hassas olan mevsimsel satışlar, üretilen ürün çeşitliliğinin oldukça fazla olması, ürün tasarımlarının her daim güncel tutulması ve çoğu ürünün bir sonraki koleksiyonda yer almaması talep tahminini oldukça karmaşık bir hale getirmektedir. Tüm bu kısıtlamalar, hazır giyim şirketleri için satış tahmin sistemlerini çok özel ve karmaşık hale getirmektedir. Yapılan literatür araştırması sonucunda son yıllarda perakende sektöründeki talep tahmini problemi çözümü için makine öğrenme yöntemlerine sıkça başvurulduğu görülmüştür. Bu çalışmalardan hareketle uygulama kapsamında makine öğrenmesi yöntemleri karşılaştırmalı olarak değerlendirilmiş ve veri setine en iyi yanıt veren, veri setini en iyi öğrenebilen algoritma seçimi üzerinde durulmuştur. Çalışmada yapay sinir ağlarından çok katmanlı algılayıcı, bir karar ağacı alt yapısı ile çalışan rassal orman algoritması ve kümeleme yöntemlerinden K-ortalamalar ve X-ortalamalar algoritmaları kullanılmıştır. K-ortalamalar algoritması kendi başına küme sayısını belirleyemez ve bu da bir dezavantaj oluşturur. X-ortalamalar algoritması aslında K-ortalamalar algoritma mantığı ile çalışan ve optimum k değeri belirleme işlemini kullanıcıya değil de kendi başına halledebilen bir algoritma olduğu için optimum küme sayısı X-ortalamalar algoritması ile belirlenmiş olmaktadır. Çalışma kapsamında kullanılan veri seti çoğunlukla nominal değerlerden oluştuğu için bu değerlerin regresyon uygulamasına yanıt verebilmesi için ikilik tabandaki sayılara çevrilmişlerdir. Nümerik değişkenlerin de birbirleri cinsinden ifade edilebilmesini sağlama amacı ile normalleştirme yaklaşımı uygulanmıştır. Uygulama kapsamında kullanılan normalleştirme yöntemi Min-Maks yöntemidir.Uygulamanın ilk aşaması kısa dönemlik gerçekleşen ürün sipariş verilerini kullanarak bir sonraki sipariş edilebilecek ürünü ve ürün miktarını tahmin etmektir. Bunu gerçekleştirmek için eldeki veri rassal bir şekilde eğitim ve test veri setlerine ayrılmış ve eğitim veri seti çok katmanlı algılayıcı ve rassal orman algoritması ile çalıştırılmıştır. Yapılan ilk denemenin sonucunda çok katmanlı algılayıcının rassal orman algoritmasına göre performans kriterleri gözetilerek daha iyi sonuç verdiği gözlemlenmiştir. Bu üstünlük halinin rastlantısal bir durum olup olmadığını anlamak için de birbirlerinden farklı 10 adet eğitim ve test setleri oluşturulup her iki algoritma da bulunan veri setleri ile çalıştırılmıştır. Bunun sonucunda da bulunan performans kriterlerine t-testi uygulanarak bulunan sonucun tesadüfi olmadığı, 10 denemenin her birisinde çok katmanlı algılayıcı rassal orman algoritmasına göre daha iyi sonuç verdiği belirlenmiştir. Yapılan uygulamanın ikinci aşamasında, ürün özelliklerine bakılmaksızın tüm ürünleri aynı veri seti içerisinde bulunduran ilk aşamadaki süreçten ziyade birbirlerine benzer özellik gösteren ürünleri kümelemenin ve bu işlem sonunda her bir küme için ayrı ayrı tahmin çalışması yapmanın tahmin performansını iyileştirip iyileştirmediği hesaplanmıştır. Kümeleme yaklaşımında da iki yöntem (K-ortalamalar, X-ortalamalar algoritması) ile çalışılmış ve her iki yöntemden elde edilen sonuçlar rand endeks değeri hesaplanarak birbiri ile karşılaştırılmış ve daha iyi bir endeks değerine sahip olduğu için K-ortalamalar algoritması ile belirlenen kümelere tahmin çalışması uygulanmıştır. Çalışma sonunda elde edilen performans değerleri birinci aşamada bulunan performans değerleri ile karşılaştırılmış ve kümelemenin tahmin performansını iyileştirmediği gözlemlenmiştir. Uygulamanın üçüncü aşamasında ise amaç, seçilen bir ürüne ait geçmiş yılların sipariş verileri kullanılarak gelecek periyottaki sipariş miktarını tahmin etmektir. Çalışmanın bu kısmında mevcut olan tüm sezonlardaki ortak bulunan bağımsız değişken değerleri belirlenmiş ve bunun sonucunda veri setinde belirli sadeleştirmeler yapılmıştır. Veri seti yine rassal olacak şekilde eğitim ve test veri seti olarak iki kısımda incelenmiştir. Eğitim veri seti ile yapılan regresyon çalışmasının sonucunda rassal orman algoritması performans değerlendirme kriterleri açısından daha tahmin edici bir sonuç vermiştir. Bu üstünlük halinin rastlantısal bir durum olup olmadığını anlamak için de birinci aşamada yapıldığı gibi birbirlerinden farklı 10 adet eğitim ve test setleri oluşturulup her iki algoritma da bulunan veri setleri ile çalıştırılmıştır. Bunun sonucunda da bulunan performans kriterlerine t-testi uygulanarak bulunan sonucun tesadüfi olmadığı, 10 denemenin her birisinde rassal orman algoritmasının çok katmanlı algılayıcı algoritmasına göre daha iyi sonuç verdiği belirlenmiştir. Sonrasında 2004 ve 2005 yıllarındaki dört sezon ele alınarak 2006 yılındaki ilkbahar yaz sezonundaki ceket miktarı tahmin edilmeye çalışılmıştır. Bulunan tahmin sonucu 2006 yılı ilkbahar yaz sezonunda gerçekleştirilen ceket üretim miktarları ile karşılaştırılmış ve sonucun tutarlı olduğu gözlemlendiği için 2007 sonbahar kış sezonundaki ceket talep miktarı tahmin edilmeye amacıyla sırasıyla 2005 ve 2006 yıllarındaki sezon verileri kullanılmıştır. Uygulama kapsamında kullanılan çok katmanlı algılayıcı ve rassal orman algoritması parametreleri seçimi optimal bir seçim yöntemi bulunmadığı için birçok defa yapılan deneme sonuçları karşılaştırılıp en iyi değeri veren parametre optimal parametre değeri olarak belirlenmiştir. Regresyon çalışmaları için belirlenen performans kriterleri;korelasyon katsayısı, ortalama mutlak hata (MAE), hata ortalamalarının karekökü (RMSE) olmaktadır. Değişkenliğin getirdiği riskin çok yüksek olduğu perakende sektöründeki en önemli problemlerden biri olan talep tahmini konusunda makine öğrenme yöntemlerinin ne kadar etkin bir biçimde sonuç verdiği bu çalışma kapsamında gözlemlenmiştir. Ancak algoritmalar aynı veri seti üzerinde benzer etkiyi yaratmamaktadır ve bundan dolayı da veri seti için algoritma seçimi büyük önem taşımaktadır. Önerilen metodoloji, firma için müşteri taleplerinin tahmin edilmesinde başarılı bir karar destek sistemi olarak düşünülmektedir. Gelecekteki çalışmalarda topluluk öğrenmesi (ensemble learning) gibi farklı makine öğrenmesi teknikleri ile uygulama yapılabilir.
Demand forecasting is a process where historical data is used to determine customer needs in the next period. Since this forecasting is related to the future, it contains a great deal of uncertainty and therefore it is not possible to predict the future period demand precisely. However, predictions obtained within a small margin of error play an important role in decision making. Within the scope of this research, machine learning methods were used to predict demand for products of a company operating in the fashion industry. Since delivery time which is based on the lifetime of products produced in the fashion industry is long, products demanded for each season are changed very quickly, customer needs have to be met in the fastest and best way, to maintain competitive power in the market, it is critical to predict demand accurately in this industry. However, seasonal sales, which are very sensitive to weather conditions, high degree of variety of the products produced, and the fact that product designs are always up to date and that most products are not included in the next collection make demand forecasting a very complicated task. All these restrictions make sales forecast systems very special and complex for garment companies. A thorough review of the related literature revealed that machine learning methods are frequently used in order to solve the demand forecasting problem in the retail sector. Based on these studies, some machine learning methods were evaluated comparatively within the scope of this study, and the selection of the algorithm that fit the data set best and the one that was able to learn the data set best was emphasized. In this study, multi-layer perceptron algorithm from artificial neural networks, random forest algorithm working with a decision tree infrastructure and K-means and X-means algorithms from clustering methods were employed. The K-means algorithm cannot determine the number of clusters on its own, which creates a disadvantage. The logic of the X-means algorithm is the same as that of the K-means algorithm; however, unlike the K-means algorithm finding the optimum number of clusters is not left to the user, and the X-means algorithm determines it on its own. Since the data set used in this study mostly consists of nominal inputs, they were converted to dummy variables so that they can respond to the regression application well. A normalization procedure, which is called the Min-Max method, was applied to ensure that numerical variables are also be expressed on the same scale. The first stage of the application utilized short-term product order data to predict which product and how much of it would be ordered in the next period. To accomplish this, the available data was randomly divided into training and test datasets and the training datasets were run with a multi-layer perceptron and random forest algorithm. As a result of the first trial, it was observed that the multi-layer sensor gave better resultsby considering the performance criteria according to the random forest algorithm. In order to understand whether this superiority is a random situation, 10 different training and test sets were created and run with datasets with both algorithms. As a result, it was determined that the result found by applying t-test to the performance criteria was not obtained by chance. It was determined that multilayer perceptron gave better results in each of 10 trials rather than random forest algorithm. In the second stage of this study, products that show similar characteristics in the data set were grouped in the same clusters. At the end of the clustering process, the effect of performing prediction study for each cluster separately was calculated. In clustering approach, two methods (K-means, X-means algorithm) were studied and the results obtained from both methods were calculated by comparing the rand index value. Since rand index value was greater than X-means algorithm, K-means algorithm was applied to the data set. The performance values obtained at the end of the study were compared in terms of performance values found in the first stage and it was observed that clustering could not improve the predictive performance. In the third stage of this study, the aim was to estimate the order amount of the next period by using the historical data of a predetermined product. In this part of study, common variable values found in all seasons were determined and certain simplifications were made in the data set. The data set was examined randomly in two parts as a training data and test data. As a result of the regression study conducted with the training data, the random forest algorithm gave a more predictive result in terms of performance evaluation criteria. As what was done in the first stage, in order to understand whether this superiority was a coincidence or not, 10 different training and test sets were created and run with datasets with both multi-layer perceptron and random forest algorithms. In conclusion, it was determined that the result found by applying t-test to the correlation coefficient was not obtained by chance, and the random forest algorithm gave better results compared to the multi-layer perceptron algorithm in each of the 10 trials. Afterwards, an estimation study was conducted by using the sales data of spring-summer and fall-winter seasons in 2004 and 2005 as training data set and the sales data of spring-summer season in 2006 as test data set. The actual sales observed in the spring and summer season of 2006 were compared with the predicted values found in the same time period and it was seen that the comparison result was consistent. The sales forecasts of all seasons were calculated by using the data of the previous two years. The estimated values and the actual values were compared, and the difference between these two values was controlled. Since there is no optimal selection method for multi-layer sensor and random forest algorithm parameters, the trial and error results were compared many times and the parameter giving the best value was determined as the optimal parameter value. Performance criteria determined for regression studies; correlation coefficient, mean absolute error (MAE), root mean square (RMSE). Algorithms also differ according to the variable types included in datasets. Some methods can handle both categorical variables and numeric variables, while others can only process categorical or only numeric values. For this reason, one of the biggest points to be considered is to determine the algorithm well according to the data set. In this study, how effectively the machine learning methods have yielded results in demand forecasting, which is one of the most important problems in the retail sector, where the risk brought by variability is very high. However, the algorithms do not havea similar effect on the same data set, and therefore the selection of the algorithm is of great importance for the data set. The proposed methodology is considered as an effective decision support system for forecasting of sales quantities for the company. In future studies, different machine learning techniques can be applied.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2020
Anahtar kelimeler
machine learning, makine öğrenmesi, sales forecasting, satış tahminleri
Alıntı