Çok yüksek çözünürlüklü uydu görüntülerinden grafik tabanlı bilgi çıkarımı

thumbnail.default.alt
Tarih
2024-07-05
Yazarlar
Sinanoğlu, Nurettin
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Graduate School
Özet
Teknolojinin çok hızlı bir şekilde gelişmesi ile birlikte hayatımızda birçok yeniliklerde onunla birlikte meydana geldi. Bu gelişmeler ise insanoğlunun hayat standartlarını ve durmadan daha fazla yeniliğe aç hale gelmesine olanak sağlamıştır. Günümüz dönemlerinde uydu teknolojilerinin ve görüntüleme yeteneklerinin inanılmaz bir şekilde artması ile birlikte, günümüz dünyasını her an aktif bir şekilde gözlemlemek ve bu gözlemlerde nesnelerin tespitlerini aktif bir şekilde yapmak çok önemli bir yer edinmiştir. Uydu görüntülerinin günümüz için en önemli kullanım alanı bizlere gideceğimiz yönü ve bu yönde gideceğimiz yolu gösterebilmesidir. Bu yolların ise durmadan değişen ve gelişen dünyamızda her an aktif bir şekilde güncellenmesi gerekmektedir. İlk zamanlarda bu yol tespitleri manuel yöntemler ile belirlenirken, günümüzde birçok derin öğrenme ve görüntü işleme yöntemi ile yapılabilmektedir. Şu zamanlarda derin öğrenme ve yanında günümüze kattığı evrişimsel sinir ağları büyük bir yol almamıza neden oldu. Çünkü geneleneksel yöntemler gibi belirli kıstaslar altında kalmayıp, her durumada uyum sağlayıp tüm kontrolleri eline alarak işlemleri otomatize bir şekilde yapmamıza olanak sağlamıştır. Şu zamanlarda ise geleneksel evrişimsel sinir ağlarının karşısında belkide onu tamamen literatürden silecek bir rakip bulunmaktadır. Bu rakip ise dönüştürücü (transformers) ismini verdiğimiz çok daha esnek ve yenilikçi bir öğrenme methodudur. Dönüştürücü yöntemlerinin artık gelenekselleşen evrişimsel sinir ağlarına karşı çok büyük avantajları bulunmaktadır. Bu avantajlardan bazıları ise çok daha düşük parametre sayısı ile daha iyi sonuçlar verebilmesidir. Parametre sayısının bizim için düşük olması önemli bir rol oynamaktadır. Bu rol çok daha düşük ağırlıklar ile düşük kapasitede donanımlarda bile bu gelişmiş derin öğrenme yöntemlerini kullanalak yüksek hızlı ve çok daha doğru sonuçlara minimum efor ve maaliyet ile ulaşmamızı sağlamaktadır. Bugün yapıya görü dönüşütürücü (vision transformers) ismi verilmiştir. Bu yapı ile birlikte uydu görüntülerinden çok daha spesifik istekler ile nesne tespitleri ve yol ağları çıkarımları yapabilmekteyiz. Yapmış olduğumuz bu tezin ana hedefi, ViT'in bu alandaki potansiyelini araştırmak ve çok daha komplike verisetleri ile neler yapabildiği ve nereye doğru evrimleşeceğini gözlemleyebilmektir. Yapacağımız bu çalışma için en önemli iki etmen bulunmaktadır. Bunlar tasarlanacak olan vision transformers mimari ve bu mimariye en uygun bir şekilde görüntülere ve etiketlere sahip olan verisetlerinin seçimidir. Kullanacağımız verisetleri araştırılırken bazı filtrelemeler yapmamız gerekmektedir. Bu filtrelemelerden ilki verisetinin ne kadar büyüklüğe sahip olduğunun analizi doğru yapmaktır. Verisetindeki görseller modelimiz için fazla yüksek çözünürlüğe sahip olursa kullancağımız parametre sayısını çok fazla arttırmamız gerekecek ve bunun için çok daha büyük model ve bu modeli eğitecek çok yüksek donanımlara ihtiyaç gerektirecektir. Bu nedenle verisetindeki görsellerin aşırı yüksek çözünürlüklere sahip olmaması gerekmektedir. Bir diğer önemli etmen ise verisetinin sahip olduğu etiketlerdir. Bizim ihtiyacımız olan etiketler ise yol ağlarının belirlenebilmesi için yol segmentasyonuna uygun segmente görüntü çıktılarına sahip olması ve yol ağlarının kenar ve kıvrım noktalarında piksel koordinatları bulundurmasıdır. Bu piksel koordinatları ile birlikte yol ağını tamamen vektörize bir halde ağını bize sunmuş olması gerekmektedir. Bizim çalışmamız için bulduğumuz kent ölçekli veriseti ihtiyacımızı büyük ölçüde karşılamıştır. Lakin çalışmamız sadece yol ağlarının bulunması ile sınırlı kalmayıp vision transformers yapısının sınırlarınıda test edip geliştirebilmemiz için aynı mimari içerisinde bina köşe ve merkez koordinatlarınıda tespit edecek halde tasarlanmıştır. Bu yüzden verisetinde aynı zamanda bina köşe koordinatları ile merkez noktalarınında piksel koordinatlarına ihtiyacımız bulunmaktadır. Verisetini bu ihtiyaç doğrultusunda zenginleştirebilmek için yarı manuel yarı otomatize bir etiketleme mekanizması geliştirdik. Bu mekanizma görüntüdeki köşe kısımları görüntü işleme yöntemleri ile bizlere sunup, bizler ise bu noktaları manuel bir şekilde etiketleyerek verisetimize bu geliştirmeleri entegre ettik. ViT temelli modelimizi tasarlarken önemli bazı etkenler bulunmaktadır. Dönüştürücü yapısı ilk tasarlandığı zaman aslında bir doğal dil modeliydi ve doğal dil işleme çalışmaları için kullanılıyordu. Bir süre sonra bu yapının görüntüler üzerinde nasıl kullanılabileceği üzerine çalışmalar yayınlanmaya başlandı. Transformers yapısının en büyük eksiği görüntüyü evrişimsel sinir ağı gibi matris halinde görüntüyü kullanmıyor ve yine evrişimsel sinir ağı gibi görüntü detaylarını çıkarabilecek bir mekanizmaya sahip olmadığı için girdi olarak direkt bir şekilde görüntü verilmesi modeli anlamsız bir hale getiriyordu. Bu nedenle uydu görüntülerini vision transformers katmanına iletmeden önce bir evrişimsel sinir ağı katmanı ile bu uydu görüntülerinin tüm detaylarını çıkarmamız gerekmektedir. Bu yüzden çalışmamızda görüntü detaylarını çıkarabilmek için ResNet18 mimarisini ervişimsel sinir katmanına yerleştirerek detay çıkarımı aşamasını tamamlandı. Bu katmandan çıkan filtrelenmiş görüntüler ROI olarak kısalttığımız ilgili bölgeler aşamasına geliyor. Bu alanda görüntüdeki filtrelenmiş kısımdan sadece detayların olduğu kısımları transformers katmanına iletilir. Vision transformers katmanına gelirken mimarimiz iki kola ayrılıyor. İlk kolda yol ağlarının belirlenebilmesi için yapılan katmanlar bulunurken, ikinci kolda bina köşe ve merkez koordinatlarını bulmamızı sağlayan diğer katmanlar bulunmaktadır. Mimarimizi iki kola ayırmamızın temel sebebi sağladıkları çıktıların tamamen farklı olmasından kaynaklıdır. İlk katmandan yol köşe ve kıvrım koordinatları ile birlikte vektörlerde çıktı olarak gelmektedir. İkinci kolda ise bina köşe koordinatları ile merkez koordinatları sınıflandırılmış halde gelmektedir. Vektör çıktıyı daha doğru sağlayabilmek için buradaki tahmin mekanizmasının işini kolaylaştırabilmek adına bina çıktılarını başka bir kol üzerinden tespitlerini gerçekleştirdik. Mimarimizi ve verisetinin çalışmalarını tamamladıktan sonra eğitim süresi A100 ekran kartına sahip bir bulut ortamında 20 saatlik bir eğitim sürecinden sonra tamamlanmış oldu. Eğitim süreci tamamlandıktan sonra verisetimizden test aşaması için eğitim aşamasına dahil etmediğimiz 5 adet uydu görüntüsü ve etiketlerini modelimizi test edebilmek için kullandık. Bu test aşamasında modelimizin verdiği çıktıları incelerken doğru ve yanlış yaptığımız birçok parametreyide görebilme fırsatını elde edildi. Modelimizi tasarlarken doğru yaptığımız kısımlardan ilki resnet katmanından sonra yapıyı 2 kola ayırmamızdı çünkü metrik seviyesinde eğitim süreci boyunca iki metrikte yakın seviyelerde ilerledi. Geliştirmemiz gereken konulardan biri ise köşe noktalarında kesin değerlere çok yakın tespitler verememiş olmasıydı. Bunun temel sebebi ise detay çıkarımı için belirlediğimiz resnet mimarisi yeterli yeteneğe sahip olmamasıydı. Sonuç olarak çalışmada vision transformers mimarisi ile uydu görüntülerinden yol ağlarının çok daha hızlı ve doğru oranlarda tespit edilebildiği gözlemlenirken aynı model içerisinde farklı isterlere sahip çıktılarında verilebileceği gözlemlenmiştir. Gelecekte vision transformers yapıları ile çok daha detaylı ve spesifik konulara çözümler getirilebileceği görülmüştür.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2024
Anahtar kelimeler
uydu görüntüleri, satellite images, Grafik tabanlı bilgi çıkarımı, Graph-based infortmation extraction
Alıntı