Deep hybrid recommender system

thumbnail.default.alt
Tarih
2020-03-11
Yazarlar
Türker, Didem
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science And Technology
Fen Bilimleri Enstitüsü
Özet
With the increasing popularity of e-commerce platforms in recent years, recommendation systems have become highly popular. E-commerce platforms can offer items to the user with personalized information from large quantities of data that are often dirty and difficult to use. Not only e-commerce platforms, but also many social media and many platforms where users interact with items use recommendation systems. Recommendation systems also provide a quality user experience to users. In this way, users can easily reach the items according to their taste instead of getting lost among many products. Traditional methods mainly based on the user-item interactions for recommendation. However user-item interactions mostly suffers from data sparsity problem. Data sparsity is the term used to describe the fact that not observing enough data. For example, recommender systems recommend thousands of products to hundreds of thousands of users, if you stored the data about user-product interaction in a matrix, it would be a huge amount of data consisting of lots of zeros. In addition, when a new user with no interaction with any item or a new item with no interaction with any user is included in the system, recommendation cannot be generated for that user or item using only user-item interactions. Therefore, beyond the user-item interactions, rich side information is a good source to increase the quality of recommendation. To mitigate the sparsity issue and improve the recommendation quality, we incorporate side information with user-item interactions. In recommender systems, explicit or implicit feedback of users is used. Implicit feedback (purchase/nonpurchase or click/nonclick etc.) represents opinion indirectly through analyzing user behaviour. Using implicit feedback is more challenging because of lack of negative feedback. But the high-quality explicit feedback, which provides direct input from users about their item interests, is the most functional input type to understand the user's exact response for an item. However, many systems do not have explicit feedback and it is difficult to collect this type of feedback. We have tested our framework with real world fashion retailer e-commerce data using implicit feedback. In our study, item purchasing is considered as positive feedback, and negative feedback is randomly selected from unobserved interactions. Consequently, lack of negative feedback of the implicit feedback was tried to be eliminated. For long years, neural networks have significant role in many areas of computer science and have gained popularity in recommendation systems in recent years. Successful results have been obtained in understanding the complex and non-linear relationship between user-item interactions with neural networks. In this study, artificial neural networks are used to increase the performance in understanding the complex and nonlinear relationship between user-item interactions. Also, user-item interactions are combined with side information to solve the problem of data sparsity and improve the recommendation performance. In this study, two neural network architecture are proposed. In the first proposed model, our input is purchasing count of product. Mean Squared Error (MSE) is optimized and recommendation task is performed as rating prediction. Also MSE is used as evaluation metric of the first model. In the second proposed model, the output of the model is binary classification since input of this model is taken as 1 for positive feedback or 0 for negative feedback, then binary cross entropy loss is optimized. Top-k recommendation is made instead of rating prediction. Hit Ratio (HR) is used to evaluate second model.
Son yıllarda e-ticaret platformlarının popülaritesinin artmasıyla birlikte öneri sistemleri oldukça önemli hale gelmiştir. Öneri sistemleri sayesinde e-ticaret platformları, kullanıcıya genellikle kirli ve işlemesi zor olan büyük miktardaki verileri kullanarak kişiselleştirilmiş öneriler sunmaktadır. Sadece e-ticaret platformları değil, aynı zamanda birçok sosyal medya platformu ve kullanıcıların sistemdeki nesneler ile etkileşime girdiği birçok platform öneri sistemlerini kullanmaktadır. Öneri sistemleri ayrıca kullanıcılara kaliteli bir kullanıcı deneyimi sağlamaktadır. Bu sayede kullanıcılar; birçok ürün arasında kaybolmak yerine, zevklerine uygun ürünlere kolayca ulaşabilmektedirler. Literatürde işbirlikçi filtreleme ve içerik tabanlı yöntemler gibi birçok öneri sistemi önerilmiştir. İşbirlikçi filtreleme, kullanıcıların ürünler ile olan etkileşimlerine (puanlama, satın alma vb.) göre birbirlerine benzer kullanıcıları belirleyip bu doğrultuda ürün önerileri sunmaktadır. İçerik tabanlı filtrelemede ise içeriklerin benzerliği kullanılarak öneride bulunulur. Ancak içerik tabanlı ve işbirlikçi filtreleme yöntemlerinin de bazı kısıtlamaları vardır. Bu nedenle işbirlikçi ve içerik tabanlı yaklaşımların birleştirilmesi ile hibrit (melez) yöntemler önerilmiştir. Geleneksel öneri yöntemleri, temel olarak öneri için kullanıcı-ürün etkileşimlerine dayanmaktadır. Gerçek dünyadaki durumlarda, kullanıcı-ürün etkileşimleri genellikle seyrektir. Bu durum kullanıcı-ürün etkileşimi temelli yöntemlerin öğrenme performansında önemli ölçüde düşüşe neden olur. Ayrıca, herhangi bir ürünle etkileşimi olmayan yeni bir kullanıcı veya herhangi bir kullanıcıyla etkileşimi olmayan yeni bir ürün sisteme dahil edildiğinde, yalnızca kullanıcı-ürün etkileşimine dayalı öneri sistemleri bu kullanıcı veya ürün için öneri oluşturamamaktadır. Bu nedenle, kullanıcı-ürün etkileşimlerinin ötesinde, zengin ek bilgi, öneri kalitesini artırmak için iyi bir kaynaktır. Veri seyrekliği sorununu azaltmak ve öneri kalitesini iyileştirmek için ek bilgileri kullanıcı-ürün etkileşimleriyle birleştiriyoruz. Öneri sistemlerinde, kullanıcıların açık veya örtülü geri bildirimleri kullanılır. Örtülü geri bildirim (satın alma / almama veya tıklama / tıklamama vb.), kullanıcı davranışını analiz ederek dolaylı olarak kullanıcının ürün hakkındaki görüşünü temsil eder. Olumsuz geri bildirim eksikliği nedeniyle örtülü geri bildirim kullanmak daha zorlayıcıdır. Ancak, kullanıcıların ürün hakkındaki görüşlerini doğrudan belirten yüksek kaliteli açık geri bildirim, kullanıcının bir ürün için tam görüşünü anlamak için en işlevsel geribildirim türüdür. Açık geri bildirimleri ise toplamak zordur çünkü kullanıcı her zaman puanlama yapma, beğenip / beğenmeme veya yorum yapma gibi ürün hakkındaki görüşünü direkt yansıtan işlemleri yapmaya istekli olmayabilir. Kullanıcılar bu tarz işlemleri yük ve zaman kaybı olarak görebilmektedir. Çalışmamızda modellerimizi örtük geri bildirimler kullanarak, gerçek dünyadaki bir moda perakendecisine ait e-ticaret sitesi verileriyle test ettik. Verisini kullandığımız e-ticaret sitesi, amazon.com gibi temel sarf malzemeleri satmadığı, sitede yer alan ürünler; moda, hava durumu, özel gün (yılbaşı, sevgililer günü vb.) vb. nedenler ile sıklıkla değiştiği için önerilen ürünü müşterinin sitede bulamaması gibi durumların önüne geçmek için spesifik ürün önermek yerine "Kadın Kazak", "Genç Pantolon" gibi müşterinin meyilli olduğu ürün gruplarının tahminine odaklanıyoruz. Veri kümemiz 544 adet e-ticaret sitesinde tanımlı ürün grubu ve 1.201.126 müşteriden oluşmaktadır. Bu veri bir yıl içerisinde gerçekleşmiş, 5,5M müşteri - ürün grubu satın alma ilişkisini içermektedir. Müşterilerin e-ticaret sitesinden siparişlerini verdikleri haftanın günleri ve ayları, müşteri tipi (personel, üye, üye olmadan sipariş veren vb.), e-posta ve sms izinleri, kredi kartı ve ödeme tipleri, sipariş verdikleri şehirler ve müşterilerin siparişlerini verdiği platformlar, modellerimize entegre ettiğimiz müşteriye ait ek bilgilerdir. Bir kullanıcının tercihi genellikle iki yönlüdür; pozitif (kullanıcının tercih ettiği, beğendiği) ve negatif/nötr (kullanıcının sevmediği veya özel bir ilgi duymadığı). Amacımız kullanıcının beğenisine hitap edecek ürünleri önermek ise her iki tercih de bizler için eşit derecede öneme sahiptir. Müşteri-ürün grubu arasındaki satın alma işlemi pozitif geri bildirim olarak değerlendirilirken, negatif geri bildirimler gerçekleşmeyen etkileşimler içerisinden rastgele örneklenmektedir. Eğitim kümemizde yer alan her müşteri-ürün grubu satın alma işlemi için belirli sayıda rastgele olarak müşterinin satın almadığı ürün grupları arasından negatif örneklem seçilmektedir. Seçtiğimiz negatif örneklem kümesi de eğitim kümemize dahil edilir. Bu sayede örtük geribildirimin negatif geri bildirim eksikliğini gidermeye çalıştık. Yapay sinir ağları, uzun yıllardır bilgisayar biliminin birçok alanında kullanılmaktadır ve son yıllarda öneri sistemlerinde popülerlik kazanmıştır. Yapay sinir ağları ile kullanıcı-ürün etkileşimleri arasındaki karmaşık ve doğrusal olmayan ilişkinin anlaşılmasında başarılı sonuçlar elde edilmiştir. Bu tez kapsamında, iki farklı yapay sinir ağı mimarisine etkili bir şekilde ek bilginin dahil edilmesi ile öneri performansının artırılmasına odaklanılmıştır. Modelimizin Genelleştirilmiş Matris Faktorizasyonu katmanında doğrusal olmayan matris faktorizasyonu gerçekleştirilmektedir. Çok Katmanlı Algılayıcı katmanındaki ağırlık vektörleri ve yanlılık parametreleri ile karmaşık, doğrusal olmayan kullanıcı-ürün etkileşimleri arası ilişkiler öğrenilmektedir. Son olarak Genelleştirilmiş Matris Faktorizasyonu katmanının çıktısı, Çok Katmanlı Algılayıcının son gizli katmanının çıktısı ve ek bilgilerin öğrenildiği yapay sinir ağının çıktısı modelin son gizli katmanında birleştirilmektedir. Bu tez kapsamında önermiş olduğumuz hibrit sistem, matris faktorizasyonunun sağladığı doğrusallık ile yapay sinir ağlarının doğrusal olmayan özelliğini birleştirerek öneri performansında iyileşme sağlamaktadır. Bu tez kapsamında iki farklı derin hibrit öğrenme mimarisi sunulmaktadır. Mimarilerimizde kullandığımız ileri beslemeli yapay sinir ağı sayesinde kullanıcı-ürün etkileşimleri arasındaki doğrusal olmayan, karmaşık ilişkinin öğrenilmesindeki başarım artırılmaktadır. İşbirlikçi filtreleme işlemine ek bilgiyi de ekleyerek soğuk başlangıç problemi ve veri seyrekliği problemlerine çözüm sağlanmaktadır. Derin öğrenme ve ek bilginin güçlü yönlerinden faydalanarak işbirlikçi ve içerik tabanlı yaklaşımların kısıtlamalarının hafifletilmesini ve öneri performansının artırılmasını sağlamaktayız. Öneri sistemlerini sınamak için yöntemlerden biri, kullanıcı-ürün matrisinin sıfırdan farklı olan kısımlarını belirli bir oranda rastgele silip, daha sonra öneri sistemi vasıtasıyla bu silinen kısımları geri tahminlemektir. Satın alınan ürün sayısını geri bildirim olarak kullandığımız Derin Hibrit İşbirlikçi Filtreleme modelimizin testi için veri kümesinin %0,5 kısmını rastgele siliyoruz. Daha sonra öneri performansını sınamak için ortalama kare hata değerini kullanıyoruz. İkili geri bildirim (satın aldı/almadı, 1/0) kullandığımız Derin hibrit İşbirlikçi Sıralama modelimizi sınamak için birisi dışarıda doğrulama yöntemini kullanıyoruz. Kullanıcıların %10 'ununu test için ayırıyoruz. Test için ayırdığımız kullanıcıların son satın aldıkları ürün grubunu test ögemiz olarak belirliyoruz, 99 adet kullanıcı ile etkileşmemiş ürün grubunu rastgele seçiyoruz. Ardından modelimiz test ögemizi 100 adet rastgele seçtiğimiz ürün grupları içerisinde sıralıyor. Sıralama performansını İsabet Oranı ile değerlendiyoruz. Çalışmamız kapsamında Derin Hibrit İşbirlikçi Filtreleme ve Derin Hibrit İşbirlikçi Sıralama modellerimizin farklı parametre düzenleşimlerinde öneri başarımını değerlendirmek için gerçekleştirdiğimiz deneyler ve sonuçları, modellerimizin literatürde baz aldığımız modellere göre öneri başarım karşılaştırmaları sunulmaktadır. Yaptığımız deneyler ile yapay sinir ağlarının kullanıcı-ürün etkileşimlerindeki doğrusal olmayan ve karmaşık ilişkiyi yakalamanın etkin bir yolu olduğu, ek bilgileri modele dahil ederek hibrit bir yaklaşım uygulamanın, veri seyrekliği ve soğuk başlangıç problemlerine çözüm sağlayarak öneri kalitesini artırabileceği kanıtlanmıştır. Ek olarak literatürde yaygın olarak bilinen yöntemlere kıyasla öneri başarımında artış sağlandığı gösterilmiştir.
Açıklama
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2020
Tez (Yüksek Lisans)-- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2020
Anahtar kelimeler
Deep hybrid, e-commerce, Derin hibrit, e-ticaret
Alıntı