Vision-based detection and recognition of maritime objects for autonomous surface navigation

dc.contributor.advisor Ekenel, Kazım Kemal
dc.contributor.author Sayan Sevda, Yonca
dc.contributor.authorID 504211542
dc.contributor.department Computer Engineering
dc.date.accessioned 2025-08-22T13:41:13Z
dc.date.available 2025-08-22T13:41:13Z
dc.date.issued 2015-06-13
dc.description Tez (Yüksek Lisans)-- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2025
dc.description.abstract İnsansız Deniz Araçları (İDA), deniz ortamlarında doğrudan insan müdahalesine gerek kalmadan otonom yada bir yer kontrol istasyonu aracılığıyla uzaktan kumandalı olarak görev yapabilen robotik sistemlerdir. Çevresel izleme, askeri gözetim, keşif ve arama-kurtarma gibi alanlardaki kullanımları, denizcilik sektöründe önemli bir dönüşüme yol açmıştır. Bu araçların söz konusu operasyonlardaki kritik rolü, yeteneklerini daha da geliştirecek ileri teknolojilere olan talebi artırmaktadır. İDA'ların sahip olduğu otonom rota planlama ve hareket kabiliyetlerine rağmen, karşılaştıkları en büyük zorluklardan biri, su yüzeyinde engel oluşturabilecek nesnelerin doğru ve tutarlı bir şekilde algılanması ve sınıflandırılmasıdır. Bu gereklilik, görev başarısı, seyir güvenliği ve deniz trafiği yönetimi açısından yüksek bir öneme sahiptir. Ancak deniz ortamı, nesne tespiti ve sınıflandırma süreçlerinde yüksek doğruluk elde edilmesini zorlaştıran çok sayıda çevresel değişkene sahiptir. Değişken hava koşulları, dalga hareketleri, güneş yansımaları ve değişken ışık seviyeleri gibi faktörler, görüntü kalitesini doğrudan etkileyerek algılama sistemlerinin güvenilirliğini düşürebilmektedir. Ayrıca, gemilerin boyut, şekil, malzeme yapısı ve hareket modelleri açısından çeşitlilik göstermesi, sınıflandırma görevini daha da karmaşık hale getirmektedir. Radar ve LIDAR gibi sensörler çeşitli otonom sistemlerde yaygın olarak kullanılmasına rağmen, deniz ortamlarında çoğunlukla etkin performans gösterememektedir. Radar sistemleri, özellikle küçük ve düşük profilli nesneleri tespit etmekte zorlanmakta ve dalga kaynaklı yansımalar nedeniyle yanlış alarm üretebilmektedir. LIDAR ise, su yüzeyinin düşük yansıtıcılığı ve değişken doğası nedeniyle güvenilir veri sağlayamamakta, ayrıca açık deniz gibi menzil açısından zorlu ortamlarda performans kaybı yaşamaktadır. Bu nedenlerle, kamera tabanlı algılama sistemleri deniz ortamları için daha avantajlı bir alternatif sunmaktadır. Kameralar, yüksek çözünürlükte detaylı görsel bilgi sağlayarak küçük nesnelerin, insan figürlerinin ve diğer potansiyel tehlikelerin daha hassas bir şekilde tespit edilmesini mümkün kılmaktadır. Ayrıca, görüntü verileri üzerine makine öğrenmesi ve derin öğrenme yöntemlerinin uygulanabilmesi, nesne tespiti ve sınıflandırma süreçlerinde esnekliği ve doğruluğu artırmaktadır. Kamera tabanlı derin öğrenme çözümleri, deniz ortamında karşılaşılan bu zorluklara karşı etkili sonuçlar sunmaktadır. Özellikle YOLO (You Only Look Once) gibi hızlı ve doğruluk odaklı nesne tespiti algoritmaları, gerçek zamanlı uygulamalar için ön plana çıkmaktadır. YOLO'nun optimize edilmiş bir versiyonu olan YOLOv5, hafif yapısı, hız ve doğruluk dengesi ile dinamik deniz ortamlarında küçük nesne tespitine uygun bir modeldir. Ayrıca, TPH-YOLOv5 modeli, küçük nesne tespit performansını daha da artırmak amacıyla Transformer Prediction Head (TPH) ve Convolutional Block Attention Module (CBAM) mekanizmalarını entegre ederek, dikkat mekanizmaları aracılığıyla öznitelik temsillerini zenginleştirmiştir. Bu sayede, düşük çözünürlüklü ve karmaşık deniz ortamlarında küçük nesne tespiti daha güvenilir hale getirilmiştir. Derin öğrenme alanındaki bir diğer önemli gelişme ise Görüntü Dönüştürücüler (ViT) mimarisidir. Geleneksel Evrişimsel Sinir Ağlarından (CNN) farklı olarak ViT'ler, görüntüleri küçük parçalara (patch) bölerek bu parçaları doğal dil işleme alanındaki kelimelere benzer token'lar gibi işler. Bu tokenlar arasındaki ilişkiler, self-attention mekanizmasıyla modellenir. Böylece, görüntünün farklı bölgeleri arasındaki uzun menzilli bağıntılar öğrenilebilir. Veri verimliliğini artırmak için geliştirilmiş olan Data-Efficient Image Transformer (DeiT), hesaplama verimliliği odaklı Swin Transformer ve CNN ile Transformer yaklaşımlarını harmanlayan ConvNeXt gibi mimariler, görüntü dönüştürücü ailesini daha geniş bir kullanım alanına yaymıştır. Bu tezde, İDA'ların deniz ortamında nesne tespiti ve gemi sınıflandırması problemlerine çözüm getirmek amacıyla iki aşamalı bir yaklaşım geliştirilmiştir. Çalışmada, hem nesne tespiti hem de sınıflandırma görevleri için kapsamlı veri setleri olan MODS ve MARVEL kullanılmıştır. İlk aşamada, MODS veri seti kullanılarak YOLOv5 tabanlı nesne tespiti modelleri eğitilmiş ve değerlendirilmiştir. MODS, stereo kamera görüntüleri üzerinden hem dinamik (gemi, insan) hem de statik (şamandıra gibi) engelleri içeren zengin anotasyonlara sahiptir. Veri setindeki etiketler YOLO formatına dönüştürülerek modelin eğitimi için uygun hale getirilmiştir. Nesne tespiti için TPH-YOLOv5 modeli seçilmiş ve özellikle küçük nesne algılama performansını artıracak şekilde yapılandırılmıştır. TPH (Transformer Prediction Head) yapısı, farklı ölçeklerdeki nesneleri daha iyi öğrenebilmek için kestirim katmanlarına dönüştürücü modülleri entegre etmiştir. Buna ek olarak, CBAM (Convolutional Block Attention Module) mekanizması kullanılarak, ağın dikkatini görsel olarak önemli bölgelere yönlendirmesi sağlanmıştır. Geliştirilen TPH-YOLOv5 modeli, yapılan değerlendirmelerde yüksek doğruluk (\%89.4), yüksek geri çağırma (\%83) ve ortalama doğruluk (\%86.3) değerleri elde ederek küçük ve zor tespit edilen nesnelerde önemli başarı sağlamıştır. İkinci aşamada, MARVEL veri seti kullanılarak gemi sınıflandırması gerçekleştirilmiştir. MARVEL, beş ana kategoriye ayrılmış toplam 26 farklı gemi alt tipini içermektedir. Veri setindeki dengesizlikler, çeşitli veri artırma teknikleriyle giderilmiştir. Sınıflandırma aşamasında ViT, DeiT, Swin Transformer ve ConvNeXt-v2 gibi farklı görüntü dönüştürücü tabanlı modeller eğitilmiş ve test edilmiştir. Bu modellerin doğrulukları CNN tabanlı ResNet50 ve ResNet101 gibi modellerle karşılaştırılmıştır. Sonuçlar, DeiT modelinin \%92.87 doğruluk oranı ile en iyi performansı sergilediğini göstermiştir. Ancak, FPS (Frames Per Second) değerleri dikkate alındığında, ViT tabanlı modellerin çıkarım hızlarının CNN mimarilerine göre daha düşük olduğu gözlemlenmiştir (örneğin, ResNet50: 52.66 FPS, DeiT: 1.31 FPS). Bu durum, ViT tabanlı modellerin, gerçek zamanlı uygulamalarda kullanılabilmesi için, optimizasyon gerektirdiğini ortaya koymuştur. Denizcilik uygulamalarında, özellikle İDA'ların çevresel farkındalık ve engelden kaçınma görevlerinde, kararların milisaniyeler içinde verilmesi hayati öneme sahiptir. Bu nedenle, kullanılan algılama ve sınıflandırma modellerinin sadece yüksek doğruluk sunması yeterli değildir; aynı zamanda düşük gecikmeli, yani yüksek çıkarım hızına (FPS) sahip olması da kritik bir gerekliliktir. Dönüştürücü tabanlı modellerin yüksek doğruluk sağlamalarına rağmen çıkarım sürelerinin (inference time) gerçek zamanlı uygulamalar için yetersiz olduğu belirlenmiştir. Bu sorunu aşmak amacıyla hem yapısal hem de yapısal olmayan budama (structured ve unstructured pruning) yöntemleri uygulanmıştır. Özellikle DeiT modeli üzerinde yapılan budama çalışmaları sonucunda, model parametrelerinde anlamlı bir azalma sağlanmış ve çıkarım hızında yaklaşık \%11 oranında iyileşme elde edilmiştir. Bu süreçte model doğruluğunda sadece \%0.39'luk küçük bir kayıp yaşanmıştır, bu da performans-hız dengesinin başarılı bir şekilde optimize edildiğini göstermektedir. Bununla birlikte, dönüştürücü tabanlı modellerin çıkarım hızlarının hâlen CNN tabanlı modellere göre daha düşük olduğu ve gerçek zamanlı İDA operasyonları için daha ileri düzey optimizasyonların gerekli olduğu sonucuna varılmıştır. Tez çalışmasında yalnızca performans artırımı değil, aynı zamanda model kararlarının açıklanabilirliğine yönelik çalışmalar da yapılmıştır. Görüntü dönüştürücü tabanlı modellerin karar verme süreçlerini şeffaf hale getirmek amacıyla genel bir dikkat akışı (attention rollout) görselleştirme yöntemi geliştirilmiştir. Bu yöntem, modelin sınıflandırma yaparken hangi görüntü bölgelerine odaklandığını göstererek doğru ve yanlış sınıflandırmaların sebeplerinin daha iyi anlaşılmasını sağlamıştır. Doğru tahminlerde modelin hedef nesne üzerinde odaklandığı, yanlış tahminlerde ise genellikle su yüzeyi ya da arka plan gibi ilgisiz alanlara yöneldiği tespit edilmiştir. Sonuç olarak, bu tez, İDA'lar için deniz ortamında hem güvenli hem de etkin bir şekilde çalışabilecek yüksek doğruluklu ve yorumlanabilir yapay zeka tabanlı sistemlerin geliştirilmesine katkı sağlamaktadır. Elde edilen bulgular, gelecekte daha hızlı ve daha optimize edilmiş dönüştürücü tabanlı sistemlerin geliştirilmesi için önemli bir temel oluşturmaktadır. Her ne kadar geliştirilen modeller eğitim ve test aşamalarında yüksek doğruluk değerleri elde etmiş olsa da, gerçek deniz ortamlarında çalışacak sistemler için modelin genelleme yeteneği kritik bir faktördür. Eğitimde kullanılan MODS ve MARVEL veri setleri farklı deniz koşullarını kapsasa da, tüm olası çevresel değişkenleri temsil etmek mümkün değildir. Özellikle aşırı dalgalı denizler, yoğun güneş yansımaları veya düşük görüş koşulları gibi ekstrem senaryolar, model performansında düşüşe neden olabilir. Gerçek dünya koşullarında tam güvenilirlik için saha testlerinin yapılması ve modellerin farklı deniz ortamlarında yeniden değerlendirilmesinin gerekliliği açıktır.
dc.description.abstract Unmanned Surface Vehicles (USVs) are robotic systems capable of performing operations in various marine environments autonomously or via remote control, without the need for direct human intervention. Their use in fields such as environmental monitoring, military surveillance, reconnaissance, and search and rescue missions has driven a significant transformation in the maritime industry. The critical role of USVs in these operations increases the demand for advanced technologies to further enhance their capabilities. One of the key challenges encountered by these vehicles, which possess autonomous route planning capabilities, is the accurate detection and classification of objects that may pose obstacles on the water surface. This requirement is vital for mission success, navigational safety, and traffic management. However, achieving high accuracy in object detection and ship classification is highly challenging due to environmental factors like changing weather conditions, wave movements, reflections, and varying light levels. These variables can cause image distortions that reduce the reliability of detection systems. In addition, the diversity in the shape, size and motion of the ships adds further complexity to the classification process. Recent advances in deep learning offer effective solutions to these challenges. Among them, object detection models like YOLO (You Only Look Once) stand out for real-time applications thanks to their speed and accuracy. YOLOv5, an advanced version of YOLO, with its lightweight architecture and optimized performance, is a suitable model for obstacle detection. It enables the fast and reliable identification of dynamic maritime objects, such as ships and buoys, even under challenging conditions. To improve the detection performance of small-scale objects, the TPH-YOLOv5 model integrates Transformer Prediction Heads (TPH) and Convolutional Block Attention Modules (CBAM), enhancing feature representations through self-attention mechanisms. In the deep learning field, recent breakthroughs—particularly Vision Transformers (ViT)—have revolutionized image classification tasks. Unlike traditional Convolutional Neural Networks (CNNs), Vision Transformers apply the Transformer architecture which is originally designed for Natural Language Processing (NLP), to image classification tasks. ViTs divide images into patches and process them as tokens, similar to NLP workflows, by applying self-attention to model the dependencies among different patches. Variants such as Data-Efficient Image Transformers (DeiT), Swin Transformers, and ConvNeXt have further optimized this approach. DeiT offers data efficiency through techniques like distillation, Swin Transformers improve computational efficiency by using a hierarchical structure with shifted windows, and ConvNeXt modernizes CNN architectures by integrating transformer-like features into neural networks. This study presents a two-stage strategy for tackling the difficulties of real-time object detection and classification on USVs and to improve their performance in the maritime domain. Two large datasets, MODS and MARVEL, are utilized that provide comprehensive benchmarking opportunities for maritime object detection and ship classification. In the first stage, MODS dataset was used to train and evaluate YOLOv5 based object detection models. This dataset contains bounding box annotations of dynamic obstacles (e.g. ships and people) and static obstacles (e.g. buoys). The study focuses on the detection of small and dynamic objects, which are critical to avoid collisions. For this purpose, it was necessary to fit the data for the model. Therefore, a preprocessing step was applied by converting the annotations into a YOLO compatible format. Among the models tested, TPH-YOLOv5, which is optimized for small object detection, demonstrated superior performance in precision metrics (0.894\%), recall (0.83\%) and average precision (0.863\%), proving its effectiveness in detecting small obstacles. In the second stage, the MARVEL dataset which includes 26 subtypes of ships divided into five main categories was used for the classification of ships. Because of the size and class imbalance of the dataset, data preprocessing techniques such as rotation and scaling were applied to maintain the balance and improve model generalization. In this stage, the implementations of ViT models and their variants (DeiT, Swin Transformers, ConvNeXt-v2) were investigated. These models outperformed traditional CNNs in terms of accuracy; for example, DeiT achieved the highest classification accuracy of 92.87\%, followed by Swin Transformer with 90.44\% and ConvNext with 90.07\%. It presented an accuracy of 91.76\%, which shows the best performance among the CNN architectures used to investigate the impact of ViT-based models. However, despite their strong accuracy, the average inference times of transformer-based models (e.g., DeiT: 1.31 fps, Swin Transformer: 0.51 fps) were significantly higher than those of CNNs (ResNet50: 52.66 fps), which limits their practicality for real-time use. In this study, various pruning techniques were applied to enhance the computational efficiency of transformer-based models, and their effects were observed. Inference times were reduced by selectively removing low-impact weights and neurons using structural and non-structural pruning methods. This process was carefully applied to ensure minimal impact on classification accuracy and made the models better adapted for real-time deployment on USVs, where speed and precision are critical. However, the inference time of the pruned transformers still lag behind the frames-per-second (FPS) performance of traditional CNNs. These observations highlights the need for further advances in transformer optimization, especially in dynamic marine environments, where rapid decision-making is crucial. Another key contribution of this work is the development of a general heatmap generation method for vision transformers. This method produces attention flow maps that visually represent the areas on which the model focuses.
dc.description.degree yüksek Lisans
dc.identifier.uri http://hdl.handle.net/11527/27632
dc.language.iso tr
dc.publisher İTÜ Lisansüstü Eğitim Enstitüsü
dc.sdg.type Goal 9: Industry, Innovation and Infrastructure
dc.subject insansız deniz araçları
dc.subject unmanned surface vehicles
dc.subject robotik sistemler
dc.subject robotic systems
dc.title Vision-based detection and recognition of maritime objects for autonomous surface navigation
dc.title.alternative Otonom deniz seyrüseferi için görüntü tabanlı engel tespiti ve gemi sınıflandırma
dc.type Master Thesis
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.alt
Ad:
504211542.pdf
Boyut:
16.38 MB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
1.58 KB
Format:
Item-specific license agreed upon to submission
Açıklama