Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Dosyalar
Tarih
2024-08-19
Yazarlar
Ateş, Nurullah
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
İnternet kullanıcılarının dolaylı niyetlerinin doğru bir şekilde tahmin edilmesi, çevrimiçi arama deneyimlerini etkinleştirmekte ve kullanıcıların görevlerini daha verimli tamamlamalarına yardımcı olmaktadır. Kullanıcılar, aradıkları bilgilere ulaşmak için çeşitli sorgular yaparak zaman sıralı sorgu günlüklerini oluşturmaktadır. Bu süreçte, internet kullanıcılarının bilgi ihtiyaçlarını karşılamak amacıyla arama motorlarıyla etkileşime girmesi sonucu büyük miktarda arama sorgusu kaydedilir. Sorgu verilerinin doğru analiz edilmesi, kullanıcı görevlerinin tahmin edilmesini ve daha iyi anlaşılmasını sağlar. Aynı oturum içinde farklı arama görevlerine ait sorgular bulunabileceği gibi, tek bir arama görevi de farklı oturumlara yayılabilir. Arama Görevi Özütleme (AGÖ), aynı niyeti taşıyan ve sorgu günlüğü verisine dağılmış sorguları, benzersiz kümeler halinde gruplama (kümeleme) işlemidir. Kullanıcının niyetinin doğru bir şekilde tanımlanması, arama motorları ve e-ticaret platformlarında sorgu önerisi ve yeniden formülasyon, kişiselleştirilmiş öneriler ve reklamcılık gibi arama yönlendirme süreçlerinin performansını arttırmaktadır. Ancak, bu süreçte AGÖ'nün etkinliği, karşılaşılan zorlukların üstesinden gelinmesine bağlıdır. AGÖ sırasında, kısa ve hatalı sorgular ile eksik anahtar kelimeler gibi iç zorlukların yanı sıra, bilinmeyen küme sayısı ve sınırlı etiketli veri seti gibi dış zorluklarla da karşılaşılabilmektedir. Bu tez kapsamında, internette sorgular ile gerçekleştirilen gezinme deneyimini iyileştirmek için üç çalışma yapılarak AGÖ problemine çözümler sunulmuştur. Bu çalışmalardan ilki "Denetimli Öğrenme Tabanlı Sorgu Segmenti Özütleme" adı ile sorgu segmenti tespitinin gerçekleştirilmesidir. Sorgu segmentleri bazen bir arama görevinin parçası olarak, bazen de arama görevinin tamamı olarak ortaya çıkabilir. Bu durum, segmentlerin doğru bir şekilde tanımlanmasını ve bir araya getirilmesini önemli kılar. Arama görevi çalışmalarında sıkça kullanılan algoritmalardan biri olan Baş Kuyruk Bileşenler ile Sorgu Kümeleme (QC-HTC) algoritması, arama görevlerini tespit etmek için sorgu segmentlerini bir araya getirerek uygun segmentlerin nasıl birleştirilebileceğine odaklanmaktadır. Bu sebeple, AGÖ çalışmalarına başlamadan önce, bahsedilen sorgu segmentlerini tespit eden bu çalışma gerçekleştirilmiştir. İkinci çalışma, Ağırlıklı Bağlı Bileşenler ile Sorgu Kümeleme (QC-WCC) ve ayrıca QC-HTC çizge kümeleme algoritmalarını kullanan Siyam Ağı (SA) ile Çizge Tabanlı Arama Görevi Özütleme gerçekleştiren bir çalışmadır. Bu iki çizge kümeleme algoritması, iki sorgu arasındaki benzerliğe ihtiyaç duyduğundan, bu tezde sorgular arasındaki benzerliği tespit etmek için SA kullanılmıştır. SA'nın, iki örnek arasındaki benzerliği az veriyle tespit edebilme kabiliyeti, onu arama görevi problemi için en uygun yöntemlerden biri haline getirmektedir. SA'lar arasındaki benzerliği bulmak için iki nesne genellikle ağın girişinde, aynı mimari ve parametrelere sahip paralel bir katmanda işlenir. Bu yöntem, Siyam mimarisinin iki girdi arasındaki ilişkileri (benzerlik/farklılık) modelleme konusunda daha doğrudan ve etkili olmasını sağlar. Ayrıca, her iki girdi aynı ağ yapısını ve parametrelerini kullanarak işlendiği için, SA öğrenme sürecinde daha az parametreyle daha verimli hale gelir. Bu sayede, özellikle az etiketli veri içeren AGÖ gibi durumlarda, modelin genelleme yeteneği artar ve daha iyi sonuçlar elde edilebilir. Bu tez kapsamındaki son çalışmada, k-kontur Tabanlı Tekrarlayan Derin Çizge Kümelemesini Kullanarak Arama Görevi Özütleme gerçeleştirilmiştir. QC-WCC ve QC-HTC algoritmalarının, AGÖ için en sık kullanılan kümeleme yöntemleri olduğu belirtilmiştir. Bu algoritmalar, arama görevlerini (kümleleri) belirlerken yalnızca belirli bir eşik değerinin üzerindeki ikili sorgu benzerliklerini kullanmakta ve "iki sorgu arasındaki benzerlik" dışında başka bir çizge topolojik özelliğini dikkate almamaktadır. AGÖ için en yaygın olarak kullanılan yöntemlerin çizge tabanlı olması, bu tez çalışmasını çizge tabanlı bir AGÖ için bir çözüm yöntemi aramaya yönlendirmiştir. Bu nedenle, çizgenin derin topolojik özelliklerinden yararlanan bir model önerilmiştir. Yukarıda belirtilen çalışmalar aşağıda üç bölümde genişletilmiştir. Sorgu segmentasyonu, kullanıcı sorgularını analiz ederken yaygın olarak gerçekleştirilen ilk aşamadır ve ardışık sorguların aynı alt göreve ait olup olmadığını belirler. Sorgu segmentasyon sürecindeki herhangi bir eksiklik, doğrudan görev tanımlamayı ve dolaylı olarak sorgu önerisi gibi diğer ileri sorgu tabanlı problemleri ve faaliyetleri olumsuz etkileyebilir. Güncel çalışmalar, sorguların ifade ettiği anlamı tespit etmek için Özyineli Sinir Ağları (ÖSA) ve dikkat tabanlı Yapay Sinir Ağlarına (YSA) odaklanmıştır. Bu tezde, sorguların gömme vektörlerini sorgu segmentasyon problemine özgü olarak iyileştirirken, bir karar ağı içeren Siyam Evrişimsel Sinir Ağı (ESA) önerilmektedir. Önerilen yöntem, Bağlam Dikkat Mekanizmalı Uzun Kısa-Süreli Bellek (İng. Context Attention based Long Short Term Memory (CA-LSTM)) modeli ve Çift Yönlü Özyineli Sinir Ağları (İng. Bidirectional Recurrent Neural Network (BiRNN)) tabanlı modeli ile Webis Arama Görevi Korpusu 2012 (WSMC12) ve Çapraz Oturum Görevi Çıkarma (CSTE) veri setleri üzerinde karşılaştırılmıştır. Modelimiz, \%95 performans göstererek mevcut modellere göre \%1'lik bir iyileşme sağlamış ve CSTE veri setinde \%81 doğruluk oranı ile önceki en iyi sonuçlara göre sınıflandırma doğruluğunda \%6'lık bir artış elde etmiştir. Derin öğrenme modelleri, eğitim için büyük miktarda veri gerektirir; ancak, arama görevi etiketli veri kümeleri nadir ve küçüktür. Tez kapsamında yapılan ikinci çalışmada bu sınırlamaların üstesinden gelmek için, hem mesafe metriklerini hem de karar ağlarını kullanan bir yapıyı özellik çıkarma süreciyle entegre eden Çizge Tabanlı Arama Görevi Özütleme (İng. Graph based Search Task Extraction Using Siamese Network (Graph-SeTES)) modeli önerilmektedir. Graph-SeTES, kısa sorgular için Wikipedia2vec, hatalı sorgular için fastText kullanrak AGÖ'nün iç zorluklarına çözüm üretmeye çalışmaktadır. Ayrıca, SA ile az etiketli veri ile bile iyi sonuçlar vererek AGÖ'nün dış zorluklarının üstesinden gelmeye çalışmıştır. Graph-SeTES, literatürdeki yüksek başarı gösteren AGÖ modelleri ile karşılaştırılmış ve onlara kıyasla daha iyi sonuçlar elde etmiştir. Sonuçlar, CSTE veri setinde en iyi temel modele göre \%6 daha iyi çıkmış ve bu performans farkı WSMC12 veri setinde de korunmuştur. Mevcut yöntemlerin çoğu, sorgular arasındaki ikili ilişkileri kullanan çizge tabanlı kümeleme algoritmalarını tercih etmiştir. Bunun nedeni, çizge tabanlı kümeleme algoritmalarının hem yerel (örneğin, iki sorgu arasındaki doğrudan bağlantı) hem de küresel (örneğin, birden fazla sorgu grubunun oluşturduğu genel yapı) bilgiyi kullanarak benzer sorguları doğal bir yapıda kümeleyebilmesidir. Ancak, bu yöntemler çizge topolojik yapı özelliklerini kullanmak yerine, basit bir eşik değerine göre çizgeyi kümeler. Literatürdeki son çalışmalar, sorgu sayısının artmasıyla model boyutunun büyümesini engellemek için derin kümeleme katmanlarını kullanmıştır. Ancak, bu modeller etiketli veri gerektirmekte ve modern dil modellerinin gömme temsillerini göz ardı etmektedir. Bu çalışmada, veri etiketlemesi gerektirmeden arama görevlerini özütlemek için çizge topolojik özelliklerini kullanan yenilikçi bir Bağlayıcı Yakınlık ve Kümeleme Katmanı Kullanan k-Kontur Tabanlı Grafik Evrişimsel Ağ (İng. k-Contour based Graph Convolutional Network Connective proximity Clustering Layer (CoGCN-C-CL)) mimarisi önerilmektedir. CoGCN-C-CL, sorgu temsillerini ve arama görevlerini eş zamanlı olarak öğrenir. K-tepe algoritması uygulanarak çizgenin çevresine göre daha yoğun olan yüksek ilişkili k-kontur alt çizgeleri çıkarılır. K-konturlar, çizgenin farklı kenar yoğunluklarına sahip, farklı ve bağımsız bölgelerini tanımlarken, Çizge Evrişimli Ağ (ÇEA), bu bölgelerdeki düğümler arasındaki etkileşimlerin kullanılmasını sağlar. Deneysel sonuçlar, CoGCN-C-CL'in, sık kullanılan arama görevi veri kümelerinde mevcut en iyi arama görevi kümeleme yöntemlerinden daha üstün olduğunu göstermektedir. Bu tez kapsamında sunulan yenilikçi yötemler ile sorgu ifadelerine mevcut yöntemlere göre daha etkili bir şekilde analiz etme ve gruplandırma yöntemleri uygulayarak AGÖ performansını arttırmıştır. Çalışmanın odak noktaları, SA'ları kullanarak benzer sorgu çiftlerini tespit etme ve k-kontur tabanlı özyinelemeli derin çizge kümeleme teknikleridir. Önerilen yöntemler, AGÖ'nün zorluklarını aşarak, sorgu önerisi, kişiselleştirilmiş tavsiyeler ve reklamcılık gibi süreçleri destekleyerek internet üzerinden bilgiye erişimin kalitesini ve verimliliğini artırmayı hedeflemektedir. İleriki çalışmalar için, AGÖ sürecini daha da iyileştirmek amacıyla çeşitli çizge yapısal özellikleri keşfetmek mümkün olabilir. Ayrıca, önerilen SA'ının daha bağımsız hale gelebilmesi için kendi kendine denetimli öğrenen bir şekilde çalışabilmesini sağlayacak düzenlemeler yapılabilir. Bu adaptasyonlar sayesinde, modelin genelleme yeteneği artırılabilir ve veri setlerine olan bağımlılık azaltılarak daha etkili bir öğrenme süreci sağlanabilir.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2024
Anahtar kelimeler
Bilgi çıkarımı,
Information extraction,
Derin öğrenme,
Deep learning,
Kelime ağı yöntemi,
Clustering method,
Makine öğrenmesi,
Machine learning,
Yapay sinir ağları,
Artificial neural networks