Effect of expanding bounding box annotations on small object detection performance in aerial imagery
Effect of expanding bounding box annotations on small object detection performance in aerial imagery
Dosyalar
Tarih
2025-06-13
Yazarlar
Uğur, Mustafa
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
ITU Graduate School
Özet
The use of Unmanned Aerial Vehicles (UAVs), commonly referred to as drones, has increased significantly in recent years across diverse military and civilian applications, from reconnaissance and border patrol to precision agriculture and disaster relief. A key enabling technology for automating these tasks is Artificial Intelligence (AI), particularly for object detection from aerial images. However, this task is complicated by unique challenges such as object occlusion, extreme variations in viewing angles and object scale, and a high prevalence of small objects. Detecting these small objects, often defined as those smaller than 32 x 32 pixels, is especially difficult due to their limited visual information. While most research has focused on developing novel model architectures or specialized loss functions, the impact of the bounding box strategies has been largely underexplored. This thesis addresses this gap by proposing and systematically evaluating a simple yet powerful method: improving small object detection by expanding bounding box annotations to incorporate critical contextual information. Standard object detection training employs tightly-fitted bounding boxes that, while precise, often exclude valuable information about an object's complete shape and its immediate surroundings. This exclusion is particularly detrimental for small objects, where every pixel is crucial. The method investigated in this thesis tries to overcome this by expanding the ground truth bounding boxes for small objects during the training phase. This approach enriches the training data by forcing the model to learn from a broader context, capturing more of the object's features and its relationship with the background, thereby creating more robust feature representations. To validate the effectiveness of this approach, we conducted comprehensive experiments on two challenging, large-scale aerial imagery datasets: VisDrone and DIOR. Both are characterized by a high proportion of small objects (60% in VisDrone, 68% in our DIOR subset), making them ideal testbeds. Our experiments first focused on optimizing the expansion strategy, revealing that a fixed-pixel increment outperformed proportional methods. We identified optimal expansion values tailored to each dataset's characteristics: a 20-pixel expansion for the high-resolution images in VisDrone and a 5-pixel expansion for the standard-resolution images in DIOR. The results were significant, demonstrating an absolute increase in mean Average Precision (mAP) of up to 10.5% on VisDrone. This improvement was even more pronounced for classes dominated by small instances, with the Average Precision (AP) for the pedestrian class surging by 21%. Qualitative analysis confirmed that these gains stem from two factors: a substantial increase in newly detected True Positives and a reduction in False Positives due to more effective Non-Maximum Suppression (NMS) in dense scenes. To confirm the generalizability and robustness of the bounding box expansion strategy, we tested it across a diverse set of state-of-the-art architectures, including various YOLO models (YOLOv8m, YOLOv10, YOLOv11), the Transformer-based RT-DETR, and the specialized small-object detector TPH-YOLOv5. Performance gains were consistently observed across all detectors, proving the model-agnostic nature of our approach. Crucially, because the expansion is a data preprocessing step, it introduces zero computational overhead during inference. This makes the method highly practical for real-world deployment on resource-constrained UAVs, where both accuracy and speed are paramount. In summary, this thesis presents a practical, computationally efficient, and effective solution to a persistent challenge in aerial object detection. By demonstrating that a simple, expansion of bounding box annotations can significantly enhance detection accuracy, this work provides a valuable contribution that can be readily integrated into existing training pipelines to improve the performance of aerial surveillance and monitoring systems. The experimental results robustly validate this strategy across multiple datasets and state-of-the-art models, establishing it as a valuable tool for the computer vision community.
Son yıllarda insansız hava araçlarının (İHA'ların) ve dronların kullanımı oldukça arttı. Bu araçların kullanım alanları hem sivil hem de askeri olabilmektedir. Sivil alanda, tarımsal uygulamalardan doğal afet müdahalelerine, akıllı şehir yönetiminden altyapı denetimine kadar geniş bir yelpazede kullanılmaktadır. Tarım alanındaki uygulamalarına örnek olarak, dronlar kullanılarak otomatik ilaçlama, rekolte tahmini ve tarla takibi örnek gösterilebilir. Doğal afet gibi konularda, İHA ve dronlar hem afet öncesi risk haritalaması hem de afet sonrası hasar tespiti ve enkaz altındaki canlıların aranması gibi kritik müdahale süreçlerinde kullanılabilir. Afet sonrası kullanımlarda, dron ve İHAların hızlı ve doğru sonuçlar vermesi hayati önem taşımaktadır. Başka bir sivil kullanım alanı olarak son zamanlarda önem kazanan akıllı şehirler de örnek verilebilir. Akıllı şehir uygulamalarında, trafik akışının optimize edilmesi, yasadışı parklanmanın tespiti, yapı denetimi ve suç önleme amaçlı ön uyarı sistemleri örnek verilebilir. İHA ve dronların diğer bir kullanım alanı da askeri kullanımlardır. Bu araçlar son yıllarda modern savaşlarda taktiksel farkındalığı artırmak amacıyla sıkça kullanılmaktadır. Bu kullanım alanları sadece sıcak çatışma ortamları ile sınırlı değildir. Askeri gözetleme ve keşif görevleri, sınır kontrol ve güvenliği de önemli askeri kullanımlara örnek verilebilir. Bahsi geçen İHA ve dron uygulamalarının etkinliği, görüntü verilerinin güvenilir ve hızlı bir şekilde analiz edilerek anlamlı sonuçlar üretilmesine bağlıdır. Bu analiz kabiliyetini sağlamak amacıyla evrişimli sinir ağı (CNN) ve dönüştürücü (Transformer) tabanlı derin öğrenme çözümleri sunulmaktadır. Dron ve İHA kullanımında gerekli önemli görüntü işleme algoritmalarından birisi de nesne tespitidir. Ancak İHA ve dronlar üzerinden yapılan nesne tespiti, standart yer seviyesi görüntülerine kıyasla ekstra zorluklar içermektedir. Bu zorluklar; nesnelerin başka cisimler (binalar, bitki örtüsü) tarafından kısmen örtülmesi (oklüzyon), aynı sınıfa ait nesnelerin (örneğin yakın ve uzaktaki arabalar) değişken boyutlarda olması, değişken ve dik görüş açıları ve en önemlisi nesnelerin küçük boyutlu olmasıdır. Özellikle küçük nesnelerin hava araçlarından tespiti zordur. Küçük nesneler literatürde kapladıkları alana göre 32 x 32 pikselden küçük olan nesneler olarak tanımlanır. Bu çalışma kapsamında kullanılan VisDrone ve DIOR veri setlerinin analizinde, sırasıyla nesnelerin %60.17 ve %68.23'ünün bu tanıma uyduğu görülmüştür. Bu durum, küçük nesne tespitinin hava görüntülerinde ne denli yaygın ve kaçınılmaz bir problem olduğunu nicel olarak ortaya koymaktadır. Küçük nesneler, görüntüde yalnızca sınırlı sayıda piksel kapladıkları için yeterli ayırt edici bilgiye sahip değildir. Standart CNN mimarilerinde art arda gelen evrişim ve ortaklama (pooling) katmanları, bu az sayıdaki piksel bilgisinin daha da kaybolmasına neden olabilir. Bu nedenle derin öğrenme tabanlı algoritmalar küçük nesnelerin tespitinde zorluk yaşayabilir. Küçük nesne tespiti, bilgisayarlı görü alanında son yıllarda yoğun bir şekilde çalışılan problemlerden biridir. Literatürde bu soruna yönelik, genellikle model merkezli çeşitli çözüm önerileri sunulmuştur. Bunlardan bazıları, küçük nesne tespitine özel yeni model mimarileri (örneğin ek bir tespit katmanı eklemek) tasarlamaya odaklanırken; bazıları da küçük nesnelere daha hassas tepki veren özel kayıp fonksiyonları (örneğin IoU tabanlı kayıplara alternatifler) geliştirerek daha iyi bir eğitim süreci hedeflemektedir. Ancak bu alanda sınırlayıcı kutu etiketleme stratejilerinin küçük nesne tespiti performansı üzerindeki etkisine yönelik çalışmalar sınırlıdır. Bu çalışma, bu önemli boşluğu doldurmayı hedeflemektedir. Bu tezde, sınırlayıcı kutuların küçük nesne tespitine etkisi, kutuların hem eğitim hem çıkarım sırasında arttırılmasının getirdiği sonuçlar sistematik olarak incelenmiştir. Çalışmada önerilen yöntem, küçük nesnelerin sınırlayıcı kutu boyutlarının eğitim ve çıkarsama evrelerinde büyütülmesine dayanır. Mevcut nesne tespiti yöntemleri genel olarak nesneleri sıkıca saran sınırlayıcı kutular kullanmaktadır. Sınırlayıcı kutuların bu kadar sıkı kullanılmasının amacı, model çıktılarının da benzer sıkılıkta sınırlayıcı kutular üretmesini sağlamak ve bu sayede tespit edilmeye çalışılan objeye olabildiğince yakın bir kutu sonucu üretmektir. Ancak bu yaklaşım, küçük nesneler için önemli bir bilgi kaybına neden olmaktadır. Örneğin, bir yayanın sıkı bir sınırlayıcı kutu ile etiketlenmesi, hareket halindeki kollarının veya bacaklarının kutu dışında kalmasına neden olabilir. Bu durum, modelin nesnenin tam şeklini ve ayırt edici özelliklerini öğrenmesini engeller. Küçük nesneler görüntüde çok az alan kapladıkları için bu sıkı kutular hedef nesne etrafındaki bağlamsal bilginin de tamamen göz ardı edilmesine neden olmaktadır. Halbuki küçük nesnenin çevresindeki gölge, zemin dokusu ve hareket yönü gibi bağlamsal bilgiler, tespiti zaten zor olan küçük nesneler için hayati öneme sahip ipuçları barındırabilir. Bu tezde önerilen yaklaşım, küçük nesnelerin sınırlayıcı kutularını genişleterek, sıkı kutu kullanımında göz ardı edilen bu iki tür bilginin de (nesnenin eksik kalan kısımları ve çevresel bağlam) model tarafından öğrenilmesini hedefler. Genişletilmiş sınırlayıcı kutular, yalnızca küçük nesneyi değil aynı zamanda hedef nesnenin etrafındaki anlamlı bağlamsal bilgiyi de içermektedir. Bu sayede modelin küçük nesneleri tespit etme yeteneğinin arttırılması hedeflenmektedir. Bu genişletilme işlemi iki farklı strateji ile yapılmıştır: sabit piksel arttırımı (örneğin kısıtlayıcı kutuyu her yönde 10 piksel arttırmak gibi) ve orantılı arttırım (mevcut kısıtlayıcı kutunun genişlik ve yüksekliğini %25 arttırmak gibi). Yapılan deneyler sonucunda, sabit piksel arttırımının orantılı arttırıma göre daha istikrarlı ve üstün sonuçlar verdiği tespit edilmiştir. Bunun nedeni, orantılı arttırımın en küçük nesneler için yetersiz kalırken, 'küçük' olarak sınıflandırılan ama 32 x 32 piksele yaklaşan nesneler için ise gereğinden fazla ve ilgisiz arka plan bilgisi ekleyerek modelin kafasını karıştırma riski taşımasıdır. Önerilen yöntem, sıkça kullanılan iki hava görüntüleme veri kümesi olan VisDrone ve DIOR üzerinde kapsamlı deneylerle test edilmiştir. İki veri kümesi de yüksek oranda küçük nesne içermektedir. Bu özellik, söz konusu veri kümelerini küçük nesne tespitine yönelik deneylerde oldukça uygun hale getirmektedir. Deneyler neticesinde her veri seti için en uygun genişletme değeri belirlenmiştir: VisDrone için 20 piksel ve DIOR için 5 piksel. Bu fark, veri setlerinin görüntü çözünürlüğü gibi temel özelliklerinden kaynaklanmaktadır. VisDrone'daki yüksek çözünürlüklü görüntüler daha büyük bir piksel artışını tolere edebilirken, DIOR'un standart çözünürlüklü görüntülerinde daha küçük bir artış yeterli olmuştur. Deney sonuçları, sınırlayıcı kutu genişletme işleminin her iki veri setinde de performansı yükselttiğini göstermektedir. VisDrone veri setinde, en uygun genişletme değeri ile Ortalama Hassasiyet (mAP) metriğinde mutlak %10.5'lik bir artış sağlanmıştır ki bu, bilgisayarlı görü alanında oldukça önemli kabul edilen bir iyileşme oranıdır. Özellikle `yaya` gibi daha fazla küçük nesneye sahip olan sınıflarda bu artış çok daha fazla olmuş ve bu sınıfın Hassasiyet (AP) değerinde mutlak %21'lik bir iyileşme gözlemlenmiştir. Bu durum, özellikle insan tespiti gerektiren güvenlik ve arama-kurtarma senaryoları için yöntemin pratik değerini ortaya koymaktadır. Yöntemin genellenebilirliğini test etmek için farklı mimarilere sahip, güncel durumda nesne tespiti konusunda iyi sonuçlar veren modellerle de deneyler gerçekleştirilmiştir. Bu kapsamda, YOLOv8, YOLOv10, YOLOv11, TPH-YOLOv5 ve RT-DETR gibi güncel ve performansı yüksek detektörler kullanılmıştır. YOLO tabanlı modeller, evrişimli sinir ağı kullanmaktadır. RT-DETR ise dönüştürücü tabanlı, gerçek zamanlı bir nesne tespit modelidir. Bu şekilde hem evrişimli sinir ağı hem dönüştürücü tabanlı modern mimariler üzerinde testler yapılmıştır. Her bir mimariyle yapılan testlerde, sınırlayıcı kutuların genişletilmesinin küçük nesne tespit performansını istisnasız bir şekilde arttırdığı görülmüştür. Bu durum, sınırlayıcı kutu genişletilmesi yönteminin herhangi bir mimariye özgü olmadığını ve modelden bağımsız, temel bir iyileştirme olduğunu göstermektedir. Hatta TPH-YOLOv5 gibi halihazırda küçük nesne tespitine özel iyileştirmeler içeren bir modelin dahi bu yöntemden fayda sağlaması, önerilen yaklaşımın veri merkezli ve diğer model merkezli yöntemleri tamamlayıcı bir nitelik taşıdığını kanıtlamaktadır. Ortalama hassasiyet ile nesne tespiti deneylerinin yanı sıra, modellerin zaman ölçümü yapılarak yöntemin ekstra bir yük getirip getirmediği ölçülmüştür. Yapılan deneyler sonucunda, sınırlayıcı kutu genişletme işleminin bir veri ön işleme adımı olduğu ve modelin mimarisini değiştirmediği için çıkarsama sırasında herhangi bir hesaplama yükü getirmediği kesin olarak görülmüştür. Bu özellik, özellikle kaynak kısıtlı ortamlarda (İHA ve dron gibi) yöntemin uygulanabilirliğini arttırmaktadır. Diğer birçok özel mimari, hassasiyeti artırırken çıkarım hızından ödün verirken, bu tezde sunulan yöntem, ek bir gecikme olmaksızın performans artışı sunarak adeta "ücretsiz bir iyileştirme" niteliği taşımaktadır. Bu da yöntemin gerçek zamanlı çözüm isteyen gerçek dünya uygulamaları için uygunluğunu artırmaktadır. Tez kapsamında yapılan deneylerde ortalama hassasiyet ve zaman ölçümü deneyleri yanı sıra; farklı genişletme değerlerinin performansa etkisi, farklı nesne boyutlarındaki performansın incelenmesi, sınıf bazlı ortalama hassasiyet incelenmesi ve detaylı doğru pozitif/yanlış pozitif incelenmesi gibi ek analizler de yapılmıştır. Özellikle çapraz doğrulama testleri, performans artışının sadece test verisindeki kutuların genişletilmesinden kaynaklanan bir tesadüf olmadığını, aksine modelin eğitim sırasında gerçekten daha zengin ve ayırt edici özellikler öğrendiğini kanıtlamıştır. Ayrıca yapılan nitel analizler, performans artışının iki temel sebebe dayandığını göstermiştir: (1) Modelin daha önce tespit edemediği çok sayıda küçük nesneyi doğru pozitif olarak bulması ve (2) özellikle yoğun ve kalabalık sahnelerde, genişletilmiş kutuların Maksimum Olmayan Bastırma (NMS) algoritmasının etkinliğini artırarak yanlış pozitif tespitleri daha başarılı bir şekilde elemesi. Bu yönüyle, bu tez sınırlayıcı kutu genişletilmesi çalışmaları için hem teorik hem pratik güçlü bir temel oluşturmaktadır. Sonuç olarak, bu tez çalışması küçük nesne tespiti alanında basit ama etkili olan sınırlayıcı kutu genişletilmesi yöntemini sunmaktadır. Sınırlayıcı kutuların eğitim anında genişletilmesi yoluyla, küçük nesnenin etrafındaki bağlamsal bilgilerin modele dahil edilmesi sağlanmıştır. Bu sayede modelin küçük nesneleri tespit etme yeteneği arttırılmıştır. Yöntemin etkinliği, farklı veri kümeleri ve farklı mimariye sahip modern modeller ile kapsamlı bir şekilde doğrulanmıştır. Yapılan deneyler, yöntemin sadece teoride kalmayıp pratikte de önemli ve ölçülebilir kazanımlar sağladığını göstermiştir. Ek olarak, bu yöntemin herhangi bir ek parametre veya hesap yükü getirmediği kanıtlanmıştır. Bu sayede, tezde verilen yöntemin farklı modeller ve farklı veri kümeleri için geniş bir uygulanabilirliği olduğu ortaya konmuştur ve bu alanda çalışan araştırmacılar için kolayca benimsenebilecek, pratik bir çözüm sunulmuştur.
Son yıllarda insansız hava araçlarının (İHA'ların) ve dronların kullanımı oldukça arttı. Bu araçların kullanım alanları hem sivil hem de askeri olabilmektedir. Sivil alanda, tarımsal uygulamalardan doğal afet müdahalelerine, akıllı şehir yönetiminden altyapı denetimine kadar geniş bir yelpazede kullanılmaktadır. Tarım alanındaki uygulamalarına örnek olarak, dronlar kullanılarak otomatik ilaçlama, rekolte tahmini ve tarla takibi örnek gösterilebilir. Doğal afet gibi konularda, İHA ve dronlar hem afet öncesi risk haritalaması hem de afet sonrası hasar tespiti ve enkaz altındaki canlıların aranması gibi kritik müdahale süreçlerinde kullanılabilir. Afet sonrası kullanımlarda, dron ve İHAların hızlı ve doğru sonuçlar vermesi hayati önem taşımaktadır. Başka bir sivil kullanım alanı olarak son zamanlarda önem kazanan akıllı şehirler de örnek verilebilir. Akıllı şehir uygulamalarında, trafik akışının optimize edilmesi, yasadışı parklanmanın tespiti, yapı denetimi ve suç önleme amaçlı ön uyarı sistemleri örnek verilebilir. İHA ve dronların diğer bir kullanım alanı da askeri kullanımlardır. Bu araçlar son yıllarda modern savaşlarda taktiksel farkındalığı artırmak amacıyla sıkça kullanılmaktadır. Bu kullanım alanları sadece sıcak çatışma ortamları ile sınırlı değildir. Askeri gözetleme ve keşif görevleri, sınır kontrol ve güvenliği de önemli askeri kullanımlara örnek verilebilir. Bahsi geçen İHA ve dron uygulamalarının etkinliği, görüntü verilerinin güvenilir ve hızlı bir şekilde analiz edilerek anlamlı sonuçlar üretilmesine bağlıdır. Bu analiz kabiliyetini sağlamak amacıyla evrişimli sinir ağı (CNN) ve dönüştürücü (Transformer) tabanlı derin öğrenme çözümleri sunulmaktadır. Dron ve İHA kullanımında gerekli önemli görüntü işleme algoritmalarından birisi de nesne tespitidir. Ancak İHA ve dronlar üzerinden yapılan nesne tespiti, standart yer seviyesi görüntülerine kıyasla ekstra zorluklar içermektedir. Bu zorluklar; nesnelerin başka cisimler (binalar, bitki örtüsü) tarafından kısmen örtülmesi (oklüzyon), aynı sınıfa ait nesnelerin (örneğin yakın ve uzaktaki arabalar) değişken boyutlarda olması, değişken ve dik görüş açıları ve en önemlisi nesnelerin küçük boyutlu olmasıdır. Özellikle küçük nesnelerin hava araçlarından tespiti zordur. Küçük nesneler literatürde kapladıkları alana göre 32 x 32 pikselden küçük olan nesneler olarak tanımlanır. Bu çalışma kapsamında kullanılan VisDrone ve DIOR veri setlerinin analizinde, sırasıyla nesnelerin %60.17 ve %68.23'ünün bu tanıma uyduğu görülmüştür. Bu durum, küçük nesne tespitinin hava görüntülerinde ne denli yaygın ve kaçınılmaz bir problem olduğunu nicel olarak ortaya koymaktadır. Küçük nesneler, görüntüde yalnızca sınırlı sayıda piksel kapladıkları için yeterli ayırt edici bilgiye sahip değildir. Standart CNN mimarilerinde art arda gelen evrişim ve ortaklama (pooling) katmanları, bu az sayıdaki piksel bilgisinin daha da kaybolmasına neden olabilir. Bu nedenle derin öğrenme tabanlı algoritmalar küçük nesnelerin tespitinde zorluk yaşayabilir. Küçük nesne tespiti, bilgisayarlı görü alanında son yıllarda yoğun bir şekilde çalışılan problemlerden biridir. Literatürde bu soruna yönelik, genellikle model merkezli çeşitli çözüm önerileri sunulmuştur. Bunlardan bazıları, küçük nesne tespitine özel yeni model mimarileri (örneğin ek bir tespit katmanı eklemek) tasarlamaya odaklanırken; bazıları da küçük nesnelere daha hassas tepki veren özel kayıp fonksiyonları (örneğin IoU tabanlı kayıplara alternatifler) geliştirerek daha iyi bir eğitim süreci hedeflemektedir. Ancak bu alanda sınırlayıcı kutu etiketleme stratejilerinin küçük nesne tespiti performansı üzerindeki etkisine yönelik çalışmalar sınırlıdır. Bu çalışma, bu önemli boşluğu doldurmayı hedeflemektedir. Bu tezde, sınırlayıcı kutuların küçük nesne tespitine etkisi, kutuların hem eğitim hem çıkarım sırasında arttırılmasının getirdiği sonuçlar sistematik olarak incelenmiştir. Çalışmada önerilen yöntem, küçük nesnelerin sınırlayıcı kutu boyutlarının eğitim ve çıkarsama evrelerinde büyütülmesine dayanır. Mevcut nesne tespiti yöntemleri genel olarak nesneleri sıkıca saran sınırlayıcı kutular kullanmaktadır. Sınırlayıcı kutuların bu kadar sıkı kullanılmasının amacı, model çıktılarının da benzer sıkılıkta sınırlayıcı kutular üretmesini sağlamak ve bu sayede tespit edilmeye çalışılan objeye olabildiğince yakın bir kutu sonucu üretmektir. Ancak bu yaklaşım, küçük nesneler için önemli bir bilgi kaybına neden olmaktadır. Örneğin, bir yayanın sıkı bir sınırlayıcı kutu ile etiketlenmesi, hareket halindeki kollarının veya bacaklarının kutu dışında kalmasına neden olabilir. Bu durum, modelin nesnenin tam şeklini ve ayırt edici özelliklerini öğrenmesini engeller. Küçük nesneler görüntüde çok az alan kapladıkları için bu sıkı kutular hedef nesne etrafındaki bağlamsal bilginin de tamamen göz ardı edilmesine neden olmaktadır. Halbuki küçük nesnenin çevresindeki gölge, zemin dokusu ve hareket yönü gibi bağlamsal bilgiler, tespiti zaten zor olan küçük nesneler için hayati öneme sahip ipuçları barındırabilir. Bu tezde önerilen yaklaşım, küçük nesnelerin sınırlayıcı kutularını genişleterek, sıkı kutu kullanımında göz ardı edilen bu iki tür bilginin de (nesnenin eksik kalan kısımları ve çevresel bağlam) model tarafından öğrenilmesini hedefler. Genişletilmiş sınırlayıcı kutular, yalnızca küçük nesneyi değil aynı zamanda hedef nesnenin etrafındaki anlamlı bağlamsal bilgiyi de içermektedir. Bu sayede modelin küçük nesneleri tespit etme yeteneğinin arttırılması hedeflenmektedir. Bu genişletilme işlemi iki farklı strateji ile yapılmıştır: sabit piksel arttırımı (örneğin kısıtlayıcı kutuyu her yönde 10 piksel arttırmak gibi) ve orantılı arttırım (mevcut kısıtlayıcı kutunun genişlik ve yüksekliğini %25 arttırmak gibi). Yapılan deneyler sonucunda, sabit piksel arttırımının orantılı arttırıma göre daha istikrarlı ve üstün sonuçlar verdiği tespit edilmiştir. Bunun nedeni, orantılı arttırımın en küçük nesneler için yetersiz kalırken, 'küçük' olarak sınıflandırılan ama 32 x 32 piksele yaklaşan nesneler için ise gereğinden fazla ve ilgisiz arka plan bilgisi ekleyerek modelin kafasını karıştırma riski taşımasıdır. Önerilen yöntem, sıkça kullanılan iki hava görüntüleme veri kümesi olan VisDrone ve DIOR üzerinde kapsamlı deneylerle test edilmiştir. İki veri kümesi de yüksek oranda küçük nesne içermektedir. Bu özellik, söz konusu veri kümelerini küçük nesne tespitine yönelik deneylerde oldukça uygun hale getirmektedir. Deneyler neticesinde her veri seti için en uygun genişletme değeri belirlenmiştir: VisDrone için 20 piksel ve DIOR için 5 piksel. Bu fark, veri setlerinin görüntü çözünürlüğü gibi temel özelliklerinden kaynaklanmaktadır. VisDrone'daki yüksek çözünürlüklü görüntüler daha büyük bir piksel artışını tolere edebilirken, DIOR'un standart çözünürlüklü görüntülerinde daha küçük bir artış yeterli olmuştur. Deney sonuçları, sınırlayıcı kutu genişletme işleminin her iki veri setinde de performansı yükselttiğini göstermektedir. VisDrone veri setinde, en uygun genişletme değeri ile Ortalama Hassasiyet (mAP) metriğinde mutlak %10.5'lik bir artış sağlanmıştır ki bu, bilgisayarlı görü alanında oldukça önemli kabul edilen bir iyileşme oranıdır. Özellikle `yaya` gibi daha fazla küçük nesneye sahip olan sınıflarda bu artış çok daha fazla olmuş ve bu sınıfın Hassasiyet (AP) değerinde mutlak %21'lik bir iyileşme gözlemlenmiştir. Bu durum, özellikle insan tespiti gerektiren güvenlik ve arama-kurtarma senaryoları için yöntemin pratik değerini ortaya koymaktadır. Yöntemin genellenebilirliğini test etmek için farklı mimarilere sahip, güncel durumda nesne tespiti konusunda iyi sonuçlar veren modellerle de deneyler gerçekleştirilmiştir. Bu kapsamda, YOLOv8, YOLOv10, YOLOv11, TPH-YOLOv5 ve RT-DETR gibi güncel ve performansı yüksek detektörler kullanılmıştır. YOLO tabanlı modeller, evrişimli sinir ağı kullanmaktadır. RT-DETR ise dönüştürücü tabanlı, gerçek zamanlı bir nesne tespit modelidir. Bu şekilde hem evrişimli sinir ağı hem dönüştürücü tabanlı modern mimariler üzerinde testler yapılmıştır. Her bir mimariyle yapılan testlerde, sınırlayıcı kutuların genişletilmesinin küçük nesne tespit performansını istisnasız bir şekilde arttırdığı görülmüştür. Bu durum, sınırlayıcı kutu genişletilmesi yönteminin herhangi bir mimariye özgü olmadığını ve modelden bağımsız, temel bir iyileştirme olduğunu göstermektedir. Hatta TPH-YOLOv5 gibi halihazırda küçük nesne tespitine özel iyileştirmeler içeren bir modelin dahi bu yöntemden fayda sağlaması, önerilen yaklaşımın veri merkezli ve diğer model merkezli yöntemleri tamamlayıcı bir nitelik taşıdığını kanıtlamaktadır. Ortalama hassasiyet ile nesne tespiti deneylerinin yanı sıra, modellerin zaman ölçümü yapılarak yöntemin ekstra bir yük getirip getirmediği ölçülmüştür. Yapılan deneyler sonucunda, sınırlayıcı kutu genişletme işleminin bir veri ön işleme adımı olduğu ve modelin mimarisini değiştirmediği için çıkarsama sırasında herhangi bir hesaplama yükü getirmediği kesin olarak görülmüştür. Bu özellik, özellikle kaynak kısıtlı ortamlarda (İHA ve dron gibi) yöntemin uygulanabilirliğini arttırmaktadır. Diğer birçok özel mimari, hassasiyeti artırırken çıkarım hızından ödün verirken, bu tezde sunulan yöntem, ek bir gecikme olmaksızın performans artışı sunarak adeta "ücretsiz bir iyileştirme" niteliği taşımaktadır. Bu da yöntemin gerçek zamanlı çözüm isteyen gerçek dünya uygulamaları için uygunluğunu artırmaktadır. Tez kapsamında yapılan deneylerde ortalama hassasiyet ve zaman ölçümü deneyleri yanı sıra; farklı genişletme değerlerinin performansa etkisi, farklı nesne boyutlarındaki performansın incelenmesi, sınıf bazlı ortalama hassasiyet incelenmesi ve detaylı doğru pozitif/yanlış pozitif incelenmesi gibi ek analizler de yapılmıştır. Özellikle çapraz doğrulama testleri, performans artışının sadece test verisindeki kutuların genişletilmesinden kaynaklanan bir tesadüf olmadığını, aksine modelin eğitim sırasında gerçekten daha zengin ve ayırt edici özellikler öğrendiğini kanıtlamıştır. Ayrıca yapılan nitel analizler, performans artışının iki temel sebebe dayandığını göstermiştir: (1) Modelin daha önce tespit edemediği çok sayıda küçük nesneyi doğru pozitif olarak bulması ve (2) özellikle yoğun ve kalabalık sahnelerde, genişletilmiş kutuların Maksimum Olmayan Bastırma (NMS) algoritmasının etkinliğini artırarak yanlış pozitif tespitleri daha başarılı bir şekilde elemesi. Bu yönüyle, bu tez sınırlayıcı kutu genişletilmesi çalışmaları için hem teorik hem pratik güçlü bir temel oluşturmaktadır. Sonuç olarak, bu tez çalışması küçük nesne tespiti alanında basit ama etkili olan sınırlayıcı kutu genişletilmesi yöntemini sunmaktadır. Sınırlayıcı kutuların eğitim anında genişletilmesi yoluyla, küçük nesnenin etrafındaki bağlamsal bilgilerin modele dahil edilmesi sağlanmıştır. Bu sayede modelin küçük nesneleri tespit etme yeteneği arttırılmıştır. Yöntemin etkinliği, farklı veri kümeleri ve farklı mimariye sahip modern modeller ile kapsamlı bir şekilde doğrulanmıştır. Yapılan deneyler, yöntemin sadece teoride kalmayıp pratikte de önemli ve ölçülebilir kazanımlar sağladığını göstermiştir. Ek olarak, bu yöntemin herhangi bir ek parametre veya hesap yükü getirmediği kanıtlanmıştır. Bu sayede, tezde verilen yöntemin farklı modeller ve farklı veri kümeleri için geniş bir uygulanabilirliği olduğu ortaya konmuştur ve bu alanda çalışan araştırmacılar için kolayca benimsenebilecek, pratik bir çözüm sunulmuştur.
Açıklama
Thesis (M.Sc.) -- Istanbul Technical University, Graduate School, 2025
Anahtar kelimeler
sınırlayıcı kutu etiketi,
bounding box annotation,
küçük nesne tespiti,
small object detection,
image processing,
görüntü işleme,
compurter science,
bilgisayar bilimi