LEE- Bilgisayar Mühendisliği-Doktora

Bu koleksiyon için kalıcı URI

Gözat

Son Başvurular

Şimdi gösteriliyor 1 - 5 / 40
  • Öge
    Fog computing-based real-time emotion recognition using physiological signals
    (Graduate School, 2025-02-03) Erzurumluoğlu, Ömür Fatmanur ; İnce, Gökhan ; 504221529 ; Computer Engineering
    Emotion recognition plays a pivotal role in affective computing and human-computer interaction, with physiological signals such as ElectroEncephaloGram (EEG), ElectroCardioGram (ECG), ElectroMyoGram (EMG), respiration, and Galvanic Skin Response (GSR) are more reliable indicators of emotions. Unlike facial expressions, gestures, or speech signals, these physiological signal measures offer greater consistency in detecting emotions. This reliability arises from their reduced susceptibility to subjectivity and external factors, such as environmental noise and language barriers. There are numerous uses for emotion recognition to monitor multi-user emotional states simultaneously in real-time such as smart homes, workplaces, education, healthcare, and entertainment. For smart homes, emotion recognition may be integrated to provide automation for family members by modifying lighting, music, and other environmental elements according to the overall emotional states of the households. For workplace wellness, employers may have obtained the ability to track the health of many employees, recognizing signs of stress and tiredness; thus, they can take timely actions for a healthier work environment. In educational settings, emotion recognition can provide educators with insights into student engagement and understanding for groups of students. That helps educators adjust their teaching strategies to suit the demands of each class and improves the quality of the learning process overall. In a clinical setting, emotion recognition can help healthcare professionals to monitor the emotional states of multiple patients simultaneously, receiving immediate alerts and providing timely interventions. In the entertainment industry, especially in multi-player gaming and virtual reality environments, emotion recognition may enhance the experience by adapting environmental settings to the emotional states of individual users in real time while ensuring low latency and high performance. This study explores the implementation of fog computing for real-time emotion recognition using physiological signals. Implementing an emotion recognition system in the Internet of Things (IoT) requires powerful computational resources. Therefore, existing studies highlight the potential of cloud and edge computing architectures for emotion recognition but reveal a gap in leveraging fog computing for scalable, real-time applications. Building on these insights, this study integrates fog computing to improve latency, response time, and scalability efficiency. Hence, sensor-to-cloud architectures face challenges like latency, high bandwidth requirements, and security concerns. Fog computing provides low latency, enhanced security, scalability, and efficient resource utilization by processing data closer to its source, ensuring reliable real-time performance for multi-user emotion recognition systems. The research adopts a comprehensive methodology, starting with the use of the DREAMER dataset, which contains EEG and ECG signals recorded from 23 participants under various emotional stimuli. Signals in the dataset were segmented into 3-second windows with a 2-second overlap. Then, the data in the windows were preprocessed, and 36 time-based statistical features were extracted from the signals. By merging the features obtained from 2-channel ECG and 14-channel EEG signals, a data vector of 576 features was obtained for each sample. The dataset was divided into training and testing sets to train and evaluate the machine learning models. Eight machine learning models are employed to predict emotions. Based on accuracy, recall, precision, and F1 score metrics, the Light Gradient Boosting Machine (LGBM) model demonstrated the best performance. Since the models are designed for real-time use, the inference time for a single sample was measured. The LGBM model provided the highest accuracy with an acceptable prediction time, making it the preferred choice for the proposed real-time system. The LGBM model's inference times on the worker and cloud devices were 7.26 ms and 2.85 ms with an accuracy of 85.27 %. Accuracy variations were analyzed as the number of features changed, and accuracy plateaued at around 85 % after 44 features were used. The maximum accuracy of 86.25 % was achieved using 136 features, resulting in an average response time of 61.01 ms. However, considering resource utilization and time performance requirements for real-time systems, the system was configured to use 48 features, yielding 84.85 % accuracy with a 33 % reduction in processing time. In the proposed system, the emotion recognition process runs every second and takes about 40 ms. This pre-trained machine learning model, based on 48 physiological signal features, was integrated into the fog computing architecture, allowing for real-time emotion recognition. A fog computing architecture is designed, comprising cloud, broker, and worker nodes, to manage data processing tasks efficiently. All computation unit components of the architecture were tested in real-time scenarios using the pre-trained model. Unit performances were evaluated based on metrics such as latency, queuing delay, jitter, total response time, and resource usage, with experimental results showing that a worker node can efficiently handle computational tasks. Overall, the emotion recognition procedure begins every second and takes approximately 40 ms, including 4 ms of latency and 33 ms of execution time. Therefore, the results demonstrate fog computing's superiority over edge and cloud computing. The proposed fog computing system also outperforms existing studies in response time for real-time feature extraction from physiological signals, confirming that the fog architecture is well-suited for a real-time emotion recognition system. The system's scalability and usability in a multi-user environment were also assessed. Cloud, broker, and worker devices supported up to 11, 5, and 6 users, respectively. Although the single worker device could serve fewer users than the cloud, the fog architecture addressed this by issue incorporating multiple, cost-effective worker devices. Furthermore, using multiple processes for data processing on the worker device enhanced multi-user capacity with an optimal configuration of 6 processes allowing a worker device to serve up to 11 users. The fog architecture, utilizing multiple workers, was also evaluated. Stress tests revealed that the system can scale to accommodate 30 users with 3 worker devices. The study's findings highlight the effectiveness of fog computing in real-time emotion recognition. There are three key results including that the LGBM model achieved the highest accuracy of 85.27 % and mean single inference time of 7.26 ms for worker device, outperforming other machine learning models. The second key result is that fog computing significantly reduced latency and response time compared to cloud-based architectures, ensuring faster processing of physiological signals. Lastly, the system with 3 worker nodes and a 6-process configuration demonstrated scalability, handling up to 30 users with stable response times of approximately 40 ms. Resource utilization was optimized, with fog nodes distributing computational workloads effectively to avoid bottlenecks. Several research areas remain unexplored in this study such as optimizing computational resources, expanding the dataset and emotion classes, conducting real-world experiments to assess the practical usability of the proposed system, and implementing deep learning models within the fog computing framework using larger datasets.
  • Öge
    Uçtan uca derin öğrenme yaklaşımlarıyla Türkçe eşgönderge çözümlemesi
    (Lisansüstü Eğitim Enstitüsü, 2025-02-03) Arslan Pamay, Tuğba ; Eryiğit, Gülşen ; 504182513 ; Bilgisayar Mühendisligi
    Eşgönderge Çözümlemesi (EÇ), bir doküman içinde yer alan, aynı gerçek dünya varlığının (ör. bir kişi, yer veya olay) temsili olan sözcükler (ifade) arasındaki göndergesel ilişkinin çözümlenmesidir. Doğal Dil İşleme (DDİ) alanının anlamsal katmanında önemli bir görev olarak yer alan EÇ, metnin bağlamını derinlemesine çözümleyerek, dokümanın doğru bir şekilde anlaşılmasına ve istenen bilgilerin doğru bir şekilde çıkarılmasına yardımcı olmaktadır. Bu görevde, aralarında ilişki çözümlemesi yapılacak sözcük veya sözcük öbekleri bir ifade olarak tanımlanır. Uçtan uca bir EÇ sistemi, iki aşamadan oluşur: 1) İfade Saptama, 2) İlişki Çözümleme. İfade saptama aşamasında, dokümandaki tüm göndergesel ifadeler tespit edilir. Sonrasında, bu ifadeler arasındaki ilişkiler çözümlenerek aynı gerçek dünya varlığını temsil eden ifadeler aynı ifade kümesi altında birleştirilir. Türkçe, biçim bilimsel açıdan oldukça zengin ve zamir düşürme özelliğine sahip bir dildir. Bu özellikleri, Türkçe metinlerde bazı zamirlerin metin içerisinde açıkça yer almamasına olanak tanımaktadır. Dolayısıyla, Türkçe için geliştirilen kapsamlı bir EÇ sisteminin, düşürülen zamirleri de birer ifade olarak ele alıp bu zamirlerin ilişki çözümlemesini yapması, Türkçe yazılmış bir metnin anlam bütünlüğünün doğru anlaşılabilmesi için son derece önemlidir. Düşen zamirlere ilişkin bilgiler, cümledeki başka bir sözcüğün biçim bilimsel katmanında yer almaktadır. Bu durum, sözcüklerin yalnızca orijinal formlarının değil, aynı zamanda biçim birim düzeyinde de incelenmesini zorunlu kılmaktadır; dolayısıyla, Türkçe EÇ problemi diğer dillere kıyasla daha karmaşık bir hale gelmektedir. EÇ literatüründe yer alan çalışmalar incelendiğinde, çalışmaların çoğunun İngilizce üzerinde gerçekleştirildiği görülmektedir. Dil bilimsel açıdan Türkçeye benzeyen diller üzerinde yapılan EÇ çalışmaların ise son yıllarda başladığı görülmektedir. Yukarıda belirtilen Türkçenin dil bilimsel yapısından kaynaklanan biçim birim düzeyinde eşgönderge çözümlemesi gerekliliği, İngilizce için geliştirilmiş sistemlerin Türkçe için doğrudan uygulanmasına olanak tanımamaktadır. Bu tez çalışmasının hedefi, Türkçenin dil bilimsel özelliklerini göz önünde bulunduran ve yapay sinir ağları yöntemlerinden faydalanan, uçtan uca ilk Türkçe EÇ modelini gerçekleştirmektir. Bu doğrultuda: 1) Türkçenin yapısı, düşürülen zamirler açısından incelenmiş ve bu bilgiler için EÇ görevine özgü bir etiketleme şeması önerilmiş ve düşürülmüş zamirlerin bu şema ile göndergesel ifadeler olarak etiketlendiği güncel bir Türkçe EÇ veri kümesi sunulmuş, 2) Derin öğrenme yöntemlerinden faydalanan, farklı EÇ yaklaşımları ile geliştirilmiş Türkçe EÇ modelleri geliştirilerek, modellerin başarımları karşılaştırılmış, 3) Önerilen Türkçe EÇ veri kümesinin, çok dilli EÇ çalışmalarında kullanılabilmesi için ilgili veri kümesi koleksiyonlarında yer almasına yönelik çalışmalar tamamlanmış, 4) Türkçeyi de kapsamına alan çok dilli EÇ modelleri geliştirilerek, modellerin başarımları karşılaştırılmış, 5) Sonuç olarak, kod çözücü mimarisine sahip büyük dil modellerinden faydalanan, talimatlı tabanlı eğitilen, çok dilli EÇ modellerinin Türkçe EÇ üzerinde en iyi performansı gösterdiği ortaya konmuştur. Ek olarak, çok dilli modeller üzerinde yapılan iyileştirmeler ile özellikle dil bilimsel açından Türkçeye benzeren başka dillerdeki EÇ performanslarında da artışlar gözlemlenmiştir. Tez çalışmasında, mevcut etiketli Türkçe EÇ veri kümesi iyileştirilmiş ve düşürülmüş zamirlerin göndergesel ilişkileri etiketlenerek literatürdeki en güncel Türkçe EÇ veri kümesi oluşturulmuştur. Türkçenin EÇ başarımına, farklı eşgönderge çözümlemesi yaklaşımlarıyla (ifade çifti, ifade sıralama, uçtan uca) geliştirilen yapay sinir ağları tabanlı modellerin etkisi incelenmiştir. Veri kümesinin kalitesi ve düşürülmüş zamir etiketlemelerinin Türkçe EÇ modellerinin başarısına etkisi araştırılmıştır. Ayrıca, derin öğrenme yöntemleriyle geliştirilen Türkçe EÇ modellerinde çizge sinir ağları katmanlarının kullanımı ve bunun performansa etkisi de incelenmiştir. Türkçe üzerinde eğitilen tek dilli modeller, çok dilli olarak genişletilerek diller arası transferin Türkçe EÇ başarımına etkisi değerlendirilmiştir. Bu aşamada, Türkçe ve diğer dillerdeki EÇ başarımlarının, dillerin birbirlerinden öğrendikleri bilgilerle nasıl etkilendiği incelenmiştir. Türkçenin biçim bilimsel zenginliği nedeniyle, dil bilimsel bilgilerin EÇ modellerinde öznitelik olarak kullanılmasının etkisi, Türkçe ve benzer dillerdeki çok dilli EÇ veri kümesi üzerinde araştırılmıştır. Son olarak, kod çözücü mimarisi ve talimat tabanlı yöntemle geliştirilen çok dilli EÇ modelinin Türkçe ve diğer dillerdeki başarımları incelenmiştir. Sonuçlar, derin öğrenme yöntemlerinin Türkçe EÇ başarımını artırdığını göstermektedir. Kaliteli verilerle eğitilen Türkçe EÇ modelleri daha iyi sonuçlar elde etmiştir. Ayrıca, düşürülmüş zamirlerin etiketlenmesi ve bu ifadeler üzerinde eğitim yapılması, genel EÇ başarımını olumlu etkilemiştir. Çizge sinir ağlarının Türkçe EÇ performansını iyileştireceği hipotezi doğrulanamamıştır. Çok dilli modeller geliştirerek, diller arası transferin Türkçe EÇ başarımına olan olumlu etkileri gösterilmiştir. Türkçe ve benzer dil bilimsel özelliklere sahip dillerin EÇ performanslarında, açıkça belirtilen biçimsel özniteliklerin kullanılmasının olumlu etkisi gözlemlenmiştir. Son olarak, talimat tabanlı eğitimle geliştirilen çok dilli Türkçe EÇ modeli ile büyük dil modellerinin gücünden faydalanarak hem Türkçe hem de çok dilli EÇ performanslarında iyileşme sağlanmıştır.
  • Öge
    Measuring and evaluating the maintainability of microservices
    (Graduate School, 2024-09-03) Yılmaz, Rahime ; Buzluca, Feza ; 504172519 ; Computer Engineering
    Microservice Architecture (MSA) is a popular architectural style that emphasizes decomposing monolithic applications into independent and modular functional services. This architectural approach provides several benefits, including maintainability and scalability, making large and complex software systems more manageable and flexible. Developing a system as a set of microservices with expected benefits requires a quality assessment strategy focused on measurements of the system's properties. This thesis proposes two methods for predicting the maintainability level of microservices: one rule-based and the other learning-based. The rule-based evaluation employs a fuzzy logic-based hierarchical quality model, whereas the learning-based evaluation utilizes deep learning techniques for quality assessment. This thesis provides a software quality model for the specification and evaluation of software quality characteristics maintainability and a new approach to predict the low-level maintainability of microservices. The first part of the research emphasizes the potential use of fuzzy logic-based systems in microservice quality assessment, particularly in predicting maintainability during software development. Since the qualitative bounds of low-level quality attributes are inherently ambiguous, we use a fuzzification technique to transform crisp values of code metrics into fuzzy levels and apply them as inputs to our quality model. This model generates fuzzy values for the quality sub-characteristics of the maintainability, i.e., modifiability and testability, converted to numerical values through defuzzification. In the last step, using the values of the sub-characteristics, we calculate numerical scores indicating the maintainability level of each microservice in the examined software system. This score was used to assess the quality of the microservices and decide whether they need refactoring. To evaluate our approach, we created a test set with the assistance of three developers, who reviewed and categorized the maintainability levels of the microservices in an open-source project based on their knowledge and experience. They labeled microservices as low, medium, or high, with low indicating the need for refactoring. Our method for identifying low-labeled microservices in the given test set achieved 94% accuracy, 78% precision, and 100% recall. These results indicate that this approach can assist designers in evaluating the maintainability quality of microservices. The second part of the research presents a learning-based solution to the problem addressed in the first study, along with the experiments conducted to evaluate this approach. In that study, we developed a learning-based evaluation method that employs a transfer learning method as a novel approach, emphasizing the assessment of microservices' quality, particularly focusing on maintainability. Similarly to the first study, this approach predicts the maintainability levels of microservices into the same three categories: low, medium, and high, with a low category indicating the need for refactoring. The maintainability level is assessed using transfer learning, a deep learning technique, by feeding source-code metric values of open-source microservice projects as inputs and obtaining results directly through transfer learning. The proposed transfer learning method aims to accurately predict low-quality microservices by assessing their maintainability level. This method involves a series of structured steps, including data collection as code metrics of microservices, outlier elimination, augmentation, and balancing the dataset, followed by the application of supervised learning techniques. These steps allowed us to derive a predictive model, which was then tested using test sets labeled by human evaluators. For the validation process, we utilized 5-fold stratified cross-validation to maintain the original dataset's group ratios within each fold and to ensure an unbiased evaluation at the end of training. In each fold, we first set aside a test set while using the remaining data as the training set; this procedure was repeated so that each subset served as the test set once. After isolating the test set, we augmented the training data to increase its size and diversity for use in the pretraining phase of the transfer learning process. Subsequently, the model was fine-tuned using the training data, which was oversampled to address class imbalances. Finally, the model's generalization capability was assessed on the isolated test set. According to these results, the proposed method achieved 69.67% F1 score on unseen test data obtained from open-source projects for predicting microservices requiring refactoring in the three-class categorization.Although the accuracy is not yet optimal, it is a promising outcome, particularly given the low-labeled limited data available in test data. These findings demonstrate that the learning-based evaluation holds potential for assessing microservice quality and predicting the need for refactoring. However, the lack of sufficient test data has impacted overall performance. To improve results and evaluate the model's performance more objectively, further data collection is necessary. This initial experiment provides a strong foundation for future advancements in software quality assessment within the MSA and motivating continued exploration and refinement of the methodology.. In summary, this research aims to address emerging challenges related to microservice architecture by specifically measuring maintainability as a key quality evaluation. Our research proposes an extensive quality assessment designed to enhance quality assurance practices for MSA-based applications, thereby making a significant contribution to the field of software engineering. This research aims to lead to the development of more sustainable and robust software systems. By providing valuable insights, the proposed approaches have great potential to assist software engineers in making informed decisions regarding maintenance and refactoring activities. As software engineering continues to evolve, these methodologies and insights could serve as fundamental guides for the development and maintenance of microservices, supporting future advancements in the field. We also conclude that systematic quality assessment is essential for ensuring the long-term functionality and performance of software systems. This highlights the need for ongoing innovation and adaptation in software engineering practices.
  • Öge
    Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
    (Lisansüstü Eğitim Enstitüsü, 2024-08-19) Ateş, Nurullah ; Yaslan, Yusuf ; 504142517 ; Bilgisayar Mühendisligi
    İnternet kullanıcılarının dolaylı niyetlerinin doğru bir şekilde tahmin edilmesi, çevrimiçi arama deneyimlerini etkinleştirmekte ve kullanıcıların görevlerini daha verimli tamamlamalarına yardımcı olmaktadır. Kullanıcılar, aradıkları bilgilere ulaşmak için çeşitli sorgular yaparak zaman sıralı sorgu günlüklerini oluşturmaktadır. Bu süreçte, internet kullanıcılarının bilgi ihtiyaçlarını karşılamak amacıyla arama motorlarıyla etkileşime girmesi sonucu büyük miktarda arama sorgusu kaydedilir. Sorgu verilerinin doğru analiz edilmesi, kullanıcı görevlerinin tahmin edilmesini ve daha iyi anlaşılmasını sağlar. Aynı oturum içinde farklı arama görevlerine ait sorgular bulunabileceği gibi, tek bir arama görevi de farklı oturumlara yayılabilir. Arama Görevi Özütleme (AGÖ), aynı niyeti taşıyan ve sorgu günlüğü verisine dağılmış sorguları, benzersiz kümeler halinde gruplama (kümeleme) işlemidir. Kullanıcının niyetinin doğru bir şekilde tanımlanması, arama motorları ve e-ticaret platformlarında sorgu önerisi ve yeniden formülasyon, kişiselleştirilmiş öneriler ve reklamcılık gibi arama yönlendirme süreçlerinin performansını arttırmaktadır. Ancak, bu süreçte AGÖ'nün etkinliği, karşılaşılan zorlukların üstesinden gelinmesine bağlıdır. AGÖ sırasında, kısa ve hatalı sorgular ile eksik anahtar kelimeler gibi iç zorlukların yanı sıra, bilinmeyen küme sayısı ve sınırlı etiketli veri seti gibi dış zorluklarla da karşılaşılabilmektedir. Bu tez kapsamında, internette sorgular ile gerçekleştirilen gezinme deneyimini iyileştirmek için üç çalışma yapılarak AGÖ problemine çözümler sunulmuştur. Bu çalışmalardan ilki "Denetimli Öğrenme Tabanlı Sorgu Segmenti Özütleme" adı ile sorgu segmenti tespitinin gerçekleştirilmesidir. Sorgu segmentleri bazen bir arama görevinin parçası olarak, bazen de arama görevinin tamamı olarak ortaya çıkabilir. Bu durum, segmentlerin doğru bir şekilde tanımlanmasını ve bir araya getirilmesini önemli kılar. Arama görevi çalışmalarında sıkça kullanılan algoritmalardan biri olan Baş Kuyruk Bileşenler ile Sorgu Kümeleme (QC-HTC) algoritması, arama görevlerini tespit etmek için sorgu segmentlerini bir araya getirerek uygun segmentlerin nasıl birleştirilebileceğine odaklanmaktadır. Bu sebeple, AGÖ çalışmalarına başlamadan önce, bahsedilen sorgu segmentlerini tespit eden bu çalışma gerçekleştirilmiştir. İkinci çalışma, Ağırlıklı Bağlı Bileşenler ile Sorgu Kümeleme (QC-WCC) ve ayrıca QC-HTC çizge kümeleme algoritmalarını kullanan Siyam Ağı (SA) ile Çizge Tabanlı Arama Görevi Özütleme gerçekleştiren bir çalışmadır. Bu iki çizge kümeleme algoritması, iki sorgu arasındaki benzerliğe ihtiyaç duyduğundan, bu tezde sorgular arasındaki benzerliği tespit etmek için SA kullanılmıştır. SA'nın, iki örnek arasındaki benzerliği az veriyle tespit edebilme kabiliyeti, onu arama görevi problemi için en uygun yöntemlerden biri haline getirmektedir. SA'lar arasındaki benzerliği bulmak için iki nesne genellikle ağın girişinde, aynı mimari ve parametrelere sahip paralel bir katmanda işlenir. Bu yöntem, Siyam mimarisinin iki girdi arasındaki ilişkileri (benzerlik/farklılık) modelleme konusunda daha doğrudan ve etkili olmasını sağlar. Ayrıca, her iki girdi aynı ağ yapısını ve parametrelerini kullanarak işlendiği için, SA öğrenme sürecinde daha az parametreyle daha verimli hale gelir. Bu sayede, özellikle az etiketli veri içeren AGÖ gibi durumlarda, modelin genelleme yeteneği artar ve daha iyi sonuçlar elde edilebilir. Bu tez kapsamındaki son çalışmada, k-kontur Tabanlı Tekrarlayan Derin Çizge Kümelemesini Kullanarak Arama Görevi Özütleme gerçeleştirilmiştir. QC-WCC ve QC-HTC algoritmalarının, AGÖ için en sık kullanılan kümeleme yöntemleri olduğu belirtilmiştir. Bu algoritmalar, arama görevlerini (kümleleri) belirlerken yalnızca belirli bir eşik değerinin üzerindeki ikili sorgu benzerliklerini kullanmakta ve "iki sorgu arasındaki benzerlik" dışında başka bir çizge topolojik özelliğini dikkate almamaktadır. AGÖ için en yaygın olarak kullanılan yöntemlerin çizge tabanlı olması, bu tez çalışmasını çizge tabanlı bir AGÖ için bir çözüm yöntemi aramaya yönlendirmiştir. Bu nedenle, çizgenin derin topolojik özelliklerinden yararlanan bir model önerilmiştir. Yukarıda belirtilen çalışmalar aşağıda üç bölümde genişletilmiştir. Sorgu segmentasyonu, kullanıcı sorgularını analiz ederken yaygın olarak gerçekleştirilen ilk aşamadır ve ardışık sorguların aynı alt göreve ait olup olmadığını belirler. Sorgu segmentasyon sürecindeki herhangi bir eksiklik, doğrudan görev tanımlamayı ve dolaylı olarak sorgu önerisi gibi diğer ileri sorgu tabanlı problemleri ve faaliyetleri olumsuz etkileyebilir. Güncel çalışmalar, sorguların ifade ettiği anlamı tespit etmek için Özyineli Sinir Ağları (ÖSA) ve dikkat tabanlı Yapay Sinir Ağlarına (YSA) odaklanmıştır. Bu tezde, sorguların gömme vektörlerini sorgu segmentasyon problemine özgü olarak iyileştirirken, bir karar ağı içeren Siyam Evrişimsel Sinir Ağı (ESA) önerilmektedir. Önerilen yöntem, Bağlam Dikkat Mekanizmalı Uzun Kısa-Süreli Bellek (İng. Context Attention based Long Short Term Memory (CA-LSTM)) modeli ve Çift Yönlü Özyineli Sinir Ağları (İng. Bidirectional Recurrent Neural Network (BiRNN)) tabanlı modeli ile Webis Arama Görevi Korpusu 2012 (WSMC12) ve Çapraz Oturum Görevi Çıkarma (CSTE) veri setleri üzerinde karşılaştırılmıştır. Modelimiz, \%95 performans göstererek mevcut modellere göre \%1'lik bir iyileşme sağlamış ve CSTE veri setinde \%81 doğruluk oranı ile önceki en iyi sonuçlara göre sınıflandırma doğruluğunda \%6'lık bir artış elde etmiştir. Derin öğrenme modelleri, eğitim için büyük miktarda veri gerektirir; ancak, arama görevi etiketli veri kümeleri nadir ve küçüktür. Tez kapsamında yapılan ikinci çalışmada bu sınırlamaların üstesinden gelmek için, hem mesafe metriklerini hem de karar ağlarını kullanan bir yapıyı özellik çıkarma süreciyle entegre eden Çizge Tabanlı Arama Görevi Özütleme (İng. Graph based Search Task Extraction Using Siamese Network (Graph-SeTES)) modeli önerilmektedir. Graph-SeTES, kısa sorgular için Wikipedia2vec, hatalı sorgular için fastText kullanrak AGÖ'nün iç zorluklarına çözüm üretmeye çalışmaktadır. Ayrıca, SA ile az etiketli veri ile bile iyi sonuçlar vererek AGÖ'nün dış zorluklarının üstesinden gelmeye çalışmıştır. Graph-SeTES, literatürdeki yüksek başarı gösteren AGÖ modelleri ile karşılaştırılmış ve onlara kıyasla daha iyi sonuçlar elde etmiştir. Sonuçlar, CSTE veri setinde en iyi temel modele göre \%6 daha iyi çıkmış ve bu performans farkı WSMC12 veri setinde de korunmuştur. Mevcut yöntemlerin çoğu, sorgular arasındaki ikili ilişkileri kullanan çizge tabanlı kümeleme algoritmalarını tercih etmiştir. Bunun nedeni, çizge tabanlı kümeleme algoritmalarının hem yerel (örneğin, iki sorgu arasındaki doğrudan bağlantı) hem de küresel (örneğin, birden fazla sorgu grubunun oluşturduğu genel yapı) bilgiyi kullanarak benzer sorguları doğal bir yapıda kümeleyebilmesidir. Ancak, bu yöntemler çizge topolojik yapı özelliklerini kullanmak yerine, basit bir eşik değerine göre çizgeyi kümeler. Literatürdeki son çalışmalar, sorgu sayısının artmasıyla model boyutunun büyümesini engellemek için derin kümeleme katmanlarını kullanmıştır. Ancak, bu modeller etiketli veri gerektirmekte ve modern dil modellerinin gömme temsillerini göz ardı etmektedir. Bu çalışmada, veri etiketlemesi gerektirmeden arama görevlerini özütlemek için çizge topolojik özelliklerini kullanan yenilikçi bir Bağlayıcı Yakınlık ve Kümeleme Katmanı Kullanan k-Kontur Tabanlı Grafik Evrişimsel Ağ (İng. k-Contour based Graph Convolutional Network Connective proximity Clustering Layer (CoGCN-C-CL)) mimarisi önerilmektedir. CoGCN-C-CL, sorgu temsillerini ve arama görevlerini eş zamanlı olarak öğrenir. K-tepe algoritması uygulanarak çizgenin çevresine göre daha yoğun olan yüksek ilişkili k-kontur alt çizgeleri çıkarılır. K-konturlar, çizgenin farklı kenar yoğunluklarına sahip, farklı ve bağımsız bölgelerini tanımlarken, Çizge Evrişimli Ağ (ÇEA), bu bölgelerdeki düğümler arasındaki etkileşimlerin kullanılmasını sağlar. Deneysel sonuçlar, CoGCN-C-CL'in, sık kullanılan arama görevi veri kümelerinde mevcut en iyi arama görevi kümeleme yöntemlerinden daha üstün olduğunu göstermektedir. Bu tez kapsamında sunulan yenilikçi yötemler ile sorgu ifadelerine mevcut yöntemlere göre daha etkili bir şekilde analiz etme ve gruplandırma yöntemleri uygulayarak AGÖ performansını arttırmıştır. Çalışmanın odak noktaları, SA'ları kullanarak benzer sorgu çiftlerini tespit etme ve k-kontur tabanlı özyinelemeli derin çizge kümeleme teknikleridir. Önerilen yöntemler, AGÖ'nün zorluklarını aşarak, sorgu önerisi, kişiselleştirilmiş tavsiyeler ve reklamcılık gibi süreçleri destekleyerek internet üzerinden bilgiye erişimin kalitesini ve verimliliğini artırmayı hedeflemektedir. İleriki çalışmalar için, AGÖ sürecini daha da iyileştirmek amacıyla çeşitli çizge yapısal özellikleri keşfetmek mümkün olabilir. Ayrıca, önerilen SA'ının daha bağımsız hale gelebilmesi için kendi kendine denetimli öğrenen bir şekilde çalışabilmesini sağlayacak düzenlemeler yapılabilir. Bu adaptasyonlar sayesinde, modelin genelleme yeteneği artırılabilir ve veri setlerine olan bağımlılık azaltılarak daha etkili bir öğrenme süreci sağlanabilir.
  • Öge
    Codebook learning: Challenges and applications in image representation learning
    (Graduate School, 2024-12-27) Can Baykal, Gülçin ; Ünal, Gözde ; 504202505 ; Computer Engineering
    The rapid advancement of Machine Learning (ML) and Artificial Intelligence (AI) has paved the way for novel approaches in image representation learning for Computer Vision (CV), particularly through the utilization of codebook learning techniques. A codebook consists of representative vectors, also known as codewords, embeddings, or prototypes based on the context, that capture the essential features of the data. Codebook learning involves training these discrete representations within models, allowing the mapping of continuous data into a set of quantized or discrete vectors. This thesis studies codebook learning in two different contexts: the exploration of its challenges and the exploitation of the learned codebook in various tasks, including image generation and disentanglement. By examining three key studies, this thesis aims to provide a comprehensive understanding of how the challenges of codebook learning can be mitigated and how the learned codebook can be leveraged to enhance various image representation learning tasks. Codebook learning is beneficial in various applications, including image generation and classification tasks. It can be integrated into models like discrete Variational Autoencoders (VAEs), where it allows for efficient encoding and decoding of information, thereby improving performance in generative tasks. Additionally, in prototype based classification, codebooks consist of prototypes that characterize distinct classes within a dataset, enabling more accurate predictions. The versatility of codebook learning across different frameworks underscores its significance in advancing techniques for representation learning. The studies in this thesis perform codebook learning within different frameworks, and focus on the challenges of codebook learning along with the codebook incorporation to solve the significant problems of different image representation learning tasks. The first study addresses the challenge of codebook collapse where the codebook learning is performed within a discrete VAE framework. This phenomenon occurs when the learned codebook fails to capture the diversity of the input data as the multiple inputs get mapped to a limited number of codewords, leading to redundancy and a loss of representational power. This issue particularly arises in models such as Vector Quantized Variational Autoencoders (VQ-VAEs) and discrete VAEs, which rely on discrete representations for effective learning. The proposed solution involves a hierarchical Bayesian modeling to mitigate the codebook collapse. This work contributes significantly to the field by providing empirical evidence and theoretical insights into the root cause of codebook collapse, overcoming this collapse, thereby enhancing the representational power of discrete VAEs. After the first study that focuses on exploring the challenges of codebook learning within a VAE framework, the second and the third work focus on the problems of various image representation learning tasks where codebook learning can be exploited. In the second study, the focus shifts to the computational time problem of deep generative models, especially diffusion models. Diffusion models require relatively longer times for convergence, and our hypothesis is that incorporating informative signals about the data during the training of diffusion model might reduce the convergence time. However, the critical thing to manage is obtaining these informative signals in negligibly short time so that reducing the training time of the diffusion model also reduces the overall computational time. To learn such informative signals, we perform codebook learning within a framework of training a classifier, and the learned codebook consists of prototypes that represent the classes in the data. The second study in this thesis shows that using the class prototypes that are learned in a short time as the informative signals during the training of the diffusion model leads to better generative performance in the early stages of training, and eliminate the need for longer training. The third study's motivation is to overcome another important representation learning problem called disentanglement—a key aspect in understanding and representing complex data structures. Disentanglement refers to the ability to separate and manipulate the underlying factors of variation in the data, which is crucial for tasks such as attribute manipulation and controlled generation. On the grounds of the categorical nature of the underlying generative factors, our hypothesis is that using discrete representations that are well suited for the categorical data might aid disentanglement in the image representation. Therefore, we build a novel framework to learn a codebook within the framework of discrete VAEs, and propose an original optimization based regularization to further assist the disentanglement. The findings of this study demonstrate that using discrete representations and optimization based regularizers leads to significant improvements in terms of disentanglement. This research emphasizes the synergy between codebook learning and disentanglement, advocating for further exploration of their combined potential in advancing image representation learning. The exploration of these three studies reveals the critical challenges and advantages associated with codebook learning. The first study lays the groundwork by addressing the fundamental issue of codebook collapse, while the subsequent studies demonstrate the applicability of codebook learning in diverse contexts such as image generation and disentanglement. Together, these works illustrate that a robust understanding of codebook learning can lead to significant advancements in image generation and disentanglement. In summary, this thesis contributes to the growing literature on codebook learning by providing a detailed overview that includes its challenges and applications. The findings highlight the importance of addressing inherent challenges while leveraging the benefits of codebook learning for practical applications. Insights gained from this research aim not only to enhance the performance of existing models but also to inspire future innovations in image representation learning.