Application and analysis of deep learning techniques on the problem of depth estimation from a single image

thumbnail.default.placeholder
Tarih
2020-06-15
Yazarlar
Mertan, Alican
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science And Technology
Fen Bilimleri Enstitüsü
Özet
Depth is a key factor for scene understanding. Depth information allows us to project a scene into 3D. Number of problems such as autonomous driving, object detection, semantic segmentation, virtual and augmented reality, grasping can benefit from depth knowledge of a scene. In this work, we focus on the problem of depth estimation. Particularly, we are interested in the single image depth estimation (SIDE), where the aim is to estimate pixel-wise depth map, which is the distance of each pixel in meters, for a given RGB image. This is an inherently ambiguous problem because of the fact that same RGB image can be created by infinitely many 3D scenes that varies in scale. Due to its properties, SIDE problem is tackled with machine learning methods, most successfully with deep learning. General approach is to train a neural network using a data set of RGB images and corresponding ground truth depth maps. We group the existing works under 3 main category based on their main consideration. The works in the first category aim to solve the SIDE problem without using ground truth data. To achieve this, we see the use of synthetic data or epipolar geometry. The second category consists of works that tackle the SIDE problem in a supervised manner and aim to increase the metric performance. In these works, we see the applications of developments in deep learning techniques, loss functions tailored to the SIDE problem, and multi task learning. In the last category, we group the works that aim to solve the SIDE in the wild problem since the works in the previous categories use limited data sets which contain images coming from particular type of setting such as indoor or outdoor. To achieve this, the SIDE problem is being relaxed to estimation of ordinal relations of pixels, which we refer as relative-SIDE. This relaxation allows diverse data sets to be collected and paves the way for SIDE in the wild. In this work, we present an analysis of a work, state of the art at the time of analysis, that belongs to the second category. We replicate the work on an indoor data set. To illuminate how the model estimates depth and its performance beyond the metrics, we qualitatively analyze model's response to images that we collected, apply adversarial attack and our variant on Grad-CAM. Our analysis indicates that the model is not able to learn cues that are used by human visual system, instead it exploits very simple patterns specific to the training data set, hence cannot generalize well outside of its data set. Based on our analysis, we believe SIDE in the wild remains an important challenge. To undertake this challenge, we formulate the relative-SIDE problem as a ranking problem where each pixel is ranked based on the given RGB image. An encoder decoder network model is trained to estimate a score for each pixel to rank them. Contrary of the previous works that uses pairwise losses for training, we investigate the use of a listwise loss ListMLE, borrowed from ranking literature, as listwise losses claimed to be better than pairwise losses for information retrieval tasks. We show that model trained with our proposed loss achieves comparable performance with state of the art. Additionally, we propose a new metric that puts more emphasis on pixels that are ranked higher. From the application perspective, having a good estimate for further pixels are not as important as having a good estimate for closer pixels. We believe our proposed metric reflects this important aspect of the SIDE problem. On this metric, our proposed method performs marginally better compared to state of the art.
Derinlik, bir görüntünün çok önemli bilgilerini barındıran bir özelliğidir. Derinlik bilgisi, ait olduğu görüntüde nesne tanıma, anlamsal bölümleme ve görüntü anlamlandırma gibi işlerin doğruluğunu artırmaya yardımcı olabilir. Bunlara ek olarak, artırılmış gerçeklik ve sanal gerçeklik teknolojilerinde kullanılan derinlik farkındalıklı resim düzeltme, 3B modelleme, nesnelerden sakınma, kavrama ve genel olarak robotik işlerinde derinlik bilgisi doğrudan kullanılmaktadır. Son yıllarda büyük ilgi gören otonom araç teknolojileri de görüntünün derinlik bilgisinden faydalanmaktadır. Çalışmamız, görüntüden derinlik tahmini sorunu üzerinedir. Bilhassa tekil görüntüden derinlik tahmini sorununu ele almaktayız. Tekil görüntüden derinlik tahmini, verilen bir tekil görüntü için yoğun derinlik haritası tahmin etme işidir. Daha da açıkca, verilen tekil görüntüdeki her bir imge noktası için metre cinsinden bir uzaklık bulma işidir. Tekil görüntüden derinlik tahmini sorununu ilginç ve zorlu kılan şey, bu sorunun özünde bulunan belirsizliktir. Aralarında yalnızca ölçek farkı bulunan sonsuz sayıdaki 3B sahne, aynı 2B görüntüyü oluşturabilir. Bu durum, RGB görüntüleri ile derinlik haritaları arasında bire çok ilişkisinin varlığını işaret eder. Öyleyse bu durumda, yapay olarak geliştirilmiş görü sistemlerine kıyasla kalite ve genelleme kabiliyetleri bakımından büyük bir üstünlük sağlayan insan görü sistemi tekil görüntüden derinlik tahminini nasıl başarmaktadır? Bu sorunun cevabı, insan görü sisteminin kullandığı ipuçlarında yatmaktadır. İnsanlar tekil görüntüden derinlik tahmini yapmak için, statik tekil ipuçlarından faydalanmaktadır. Bu ipuçları yedi tanedir ve ilki üst üste oturma ipucudur. Bir nesne, diğer bir nesneyi kısmen örttüğünde görülür ve kısmen örtülmüş nesnenin örten nesneye kıyasla daha uzak olduğu anlaşılır. İkinci ipucu perspektif ipucudur. Birbirine paralel çizgilerin uzaklık arttıkça yakınlaşmış gözükmeleri durumudur. Bu ipucu ile ilişkili olarak iki ayrı ipucu daha bulunmaktadır. Bunların ilki büyüklük ipucudur. Aynı nesne, uzaklığı ile ters orantılı olarak retinamızda farklı büyüklüklerde görüntü oluşturmaktadır. Gerçek büyüklüğü hakkında fikir sahibi olduğumuz nesneler için, retinamızda oluşturdukları görüntünün büyüklüğü ile kıyaslayarak derinlik tahmini yaparız. Perspektif ile ilişkili olan diğer ipucu ise doku eğimidir. Bu ipucunu, eğimli bir yüzeye baktığımızda yüzeyin dokusunun uzaklıkla birlikte daha yoğun gözükmesi olarak gözlemleyebiliriz. Bir diğer statik tekil ipucu atmosferik ipucudur. Atmosferde bulunan partiküllerin etkisi ile, nesneler bizden uzaklaştıkça daha bulanık ve mavimtırak görünürler. Bunların yanısıra, ışık ve gölge örüntüleri de tekil görüntüden derinlik tahmini yaparken kullandığımız ipuçları arasındadır. Birbiri üzerine gölge düşüren nesneler veya nesnenin yüzeyine ekli gölgeler derinlik algısı yaratır. Son olarak, ufuk çizgisine yakın nesneler daha uzak görünürler ve buna yükseklik ipucu adı verilir. Bu ipuçları arasında en önemlisi büyüklük ipucudur. İnsanlar olarak bizlerin günlük hayatta sıkça gördüğümüz nesnelerin büyüklükleri hakkında gerçeğe yakın tahminleri vardır. Çevremizdeki dünyaya bakıp 2B görüntüler gözlemlediğimizde, görü sistemimiz önsel bilgilerimizi kullanarak bu 2B görüntüyü oluşturacak 3B sahneyi kolayca tahmin eder. Bütün bu bilgiler ışığında, insanların öğrenilmiş önsel bilgiyi kullanarak istatiksel bir şekilde derinliği thamin ettiği sonucuna varırız. Bu sonuç aynı zamanda tekil görüntüden derinlik tahmini sorunu alanında yapılan araştırmalarında gidişatına yansımıştır. Bir çok çalışma, istatiksel yöntemler kullanarak tekil görüntüden derinlik tahmini sorununu ele almıştır. Tekil görüntüden derinlik tahmini sorununu çözmek için kullanılan yöntemlerin başında makine öğrenmesi yöntemleri gelmektedir. Bunlardan en başarılısı ise, son yıllarda bilgisayarlı görü alanında birçok soruna başarı ile uygulanmış derin öğrenme yöntemleridir. Derin öğrenme yöntemlerinin genel yaklaşımı, RGB görüntüleri ve bunlara karşılık gelen gerçek referans değer derinlik haritalarından oluşan bir veri kümesi ile sinir ağları eğitmektir. Literatürdeki çalışmaları, ana fikirlerini baz alarak kümeleyebiliriz. Alandaki her çalışma, tekil görüntüden derinlik tahmini sorununa farklı bir açıdan yaklaşmakta, varolan çalışmaların çeşitli eksiklerini kapatmaya çalışmaktadır. Bazı çalışmalar, kullanılan derin öğrenme yöntemlerinde gerçekleşen yeni gelişmeleri tekil görüntüden derinlik tahmini sorununa uygulayarak veya çoklu görevden faydalanarak metrik başarımı artırmaya çalışırken, diğer çalışmalar etiketlenmiş veriye olan ihtiyacı bitirme, daha iyi 3B yapılar elde etme, kaotik gerçek yaşam koşullarında çalışma gibi farklı sorunları aşmaya çalışmaktadır. Biz literatürdeki çalışmaları üç farklı kümeye ayırdık. İlk küme, tekil görüntüden derinlik tahmini sorununu etiketlenmiş veriye ihtiyaç duymadan çözmeye çalışan çalışmalardan oluşmaktadır. Burada iki ana yaklaşım bulunmaktadır. Bunların ilki sentetik veri kullanarak zahmetli gerçek referans değer toplama işini otomatik olarak sentetik veri üretimi ile ekarte eden yaklaşımdır. Diğeri ise epipolar geometriden yararlanarak gözetimsiz öğrenme yöntemleri geliştiren yaklaşımdır. İkinci küme, ana hedefi metrik başarımı artırmak olan gözetimli öğrenme çalışmalarından oluşmaktadır. Bu çalışmalar da iki ana başlık altında incelenebilir. İlki, sinir ağlarının mimarilerini, kullanılan yitim fonksiyonlarını v.b. geliştirerek başarımı artırmaya çalışan çalışmalardan oluşurken, ikincisi çeşitli farklı görevleri çoklu görev çatısı altısında birleştiren çalışmalardan oluşmaktadır. Son küme, tekil görüntüden derinlik tahmin sorununu kaotik gerçek yaşam koşullarında çözmeyi hedefleyen çalışmalardan oluşmaktadır. Önceki kümelerdeki çalışmalar, yalnızca iç mekan ya da yalnızca dış mekan gibi kısıtlı çevrelerden toplanmış veri kümeleri üzerinde çalışmaktadır. Kaotik gerçek yaşam koşullarında çalışabilmek için, tekil görüntüden derinlik tahmini sorunu imge noktalarının sırasal ilişkilerinin tahmini sorununa indirgenerek rahatlatılmıştır ve rahatlatılmış sorun nispi derinlik tahmini olarak adlandırılmıştır. Bu rahatlatma, çeşitliliği yüksek veri kümelerinin toplanmasına olanak vererek kaotik gerçek yaşam koşullarında tekil görüntüden derinlik tahmini sorunun çözümünün yolunu açmıştır. Bu çalışmada, araştırmanın yapıldığı tarihte güncel en iyi sonuçları alan ikinci kümeye ait bir çalışmanın analizini sunuyoruz. Bu çalışma bir iç mekan veri kümesinde tekrarlanmıştır. Modelin derinliği nasıl tahmin ettiği ve konvansiyonel metriklerin ötesinde nasıl performans gösterdiği araştırılmıştır. Bu hedefle, toplamış olduğumuz çeşitli görüntülere modelin verdiği cevaplar niteliksel olarak incelenmiş, çekişmeli saldırı ve Grad-CAM yönteminin bizim tarafımızdan değiştirilmiş bir varyantı uygulanmıştır. Yaptığımız analiz işaret etmektedir ki, model insan görü sistemi tarafından kullanılan ipuçlarını öğrenememiş, bunun yerine veri kümesinde bulunan basit örüntülerden faydalanmaya çalışmaktadır ve bu durum modelin genelleme kabiliyetini olumsuz etkilemektedir. Yaptığımız analizden yola çıkarak, tekil görüntüden derinlik tahmini sorununda kaotik gerçek yaşam koşullarında çalışma sorununun halen aşılması gereken önemli bir zorluk olarak bizi beklediğine inanıyoruz. Bu sorunu ele almak için, nispi derinlik tahmini sorununu, her imge noktasının verilen görüntüye göre sıralandığı bir sıralama sorunu olarak formülize ettik. Bir gizyazar gizçözer sinir ağı modelini, imge noktalarını sıralamak için kullanılmak üzere bir puan tahmin etmesi için eğittik. Önceki ikili yitim fonksiyonu kullanarak gerçeklenmiş olan çalışmaların aksine, sıralama literatüründe ikili yitim fonksiyonlarına kıyasla daha iyi sonuçlar verdiği raporlanan listesel yitim fonksiyonu ListMLE fonksiyonunun kullanımını araştırdık. Önerdiğimiz yitim fonksiyonu ile eğitilen modelin güncel olan en iyi durum ile karşılaştırılabilir başarımlar aldığını gösterdik. Ek olarak, daha yukarıda sıralanmış imge noktalarını vurgulayan bir metrik önerdik. Uygulama açısından düşünüldüğünde, yukarıda sıralanması gereken imge noktalarını doğru şekilde sıralamanın, aşağıda sıralanması gereken imge noktalarına kıyasla daha önemlidir. Önerdiğimiz metrik, tekil görüntüden derinlik tahmini sorunun bu yönünü yansıtmaktadır. Bu metrikde, önerdiğimiz yöntem güncel olan en iyi durumdan marjinal olarak daha iyi sonuçlar vermiştir.
Açıklama
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2020
Tez (Yüksek Lisans)-- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2020
Anahtar kelimeler
Computer vision,Deep learning,Depth perception, Artificial intelligence, Bilgisayarla görme , Derin öğrenme , Derinlik algısı , Yapay zeka
Alıntı