Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi
Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi
Dosyalar
Tarih
2024-01-29
Yazarlar
Bolat, Muhammet
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Bilgisayar biliminde bant genişliğinin etkin kullanımı, özellikle resim, video, ses gibi büyük verilerin iletilmesiyle giderek daha fazla önem kazanmaktadır. Bant genişliği, iletim hattı üzerinden bir saniyede iletilen maksimum veri miktarını temsil eden bir terimdir. Aynı zamanda, belirli bir iletim ortamında bir işaretin kapladığı frekans aralığı olarak da tanımlanır. Bu bakış açısıyla, bant genişliği, veri iletimi için kullanılabilen spektrumu temsil eder. Bant genişliği genellikle bit/saniye (bit per second, bps) veya daha yüksek birimlerle ölçülür. Büyük boyutlara sahip verilerin iletilmesi, iletişim kanalının kapasitesini önemli ölçüde meşgul etmektedir. Bir internet kullanıcısı, yüksek kaliteli bir video izlerken kesinti ve veri kaybı yaşamamak için geniş bant genişliğine ihtiyaç duyar. Ancak bir e-posta gönderirken, veriyi iletmek için daha düşük bir bant genişliği yeterli olabilir. MRI taramalarında bir hastanın binlerce görüntüsü çekilir ve bu görüntüler birleştirilerek üç boyutlu sonuçlar elde edilir. Ancak bu görüntüleri bir yerden başka bir yere iletmek, veri boyutu büyüdükçe gereken iletim kapasitesini artırır ve bu durum zorlu ve maliyetli bir görev haline gelir. Bu nedenle, veri iletimi sırasında gecikmeleri ve kayıpları önlemek için bant genişliği kullanımının optimize edilmesi gerekmektedir. Bant genişliğinin etkin kullanılması amacıyla veri sıkıştırma teknikleri büyük önem taşımaktadır. Sıkıştırmanın performansı, iletilecek veri miktarını, dolayısıyla kullanılacak bant genişliğini doğrudan etkilemektedir. Veri sıkıştırma, bilgisayar üzerinde saklanan verilerin, tekrarlanan ve gereksiz bilgilerini ortadan kaldırıp kodlama işlemi yaparak kapladığı alanı azaltma işlemidir. Bu işlem, dosya boyutlarını düşürerek daha verimli bir şekilde depolamak ve iletim hattını verimli bir şekilde kullanmak için tercih edilir. Veri sıkıştırma, iki farklı tekniği içerir: kayıplı ve kayıpsız. Kayıplı sıkıştırma, kullanıcının tercihine göre sıkıştırma oranının özelleştirilebileceği bir veri sıkıştırma tekniğidir. Bu teknik, veri boyutunu azaltmak için önemsiz, tekrarlı veya insan algısına etkisi düşük olan belirli veri parçalarının atılması veya kodlanması yoluyla gerçekleşir. Kayıplı sıkıştırma algoritmaları kullanıldığında, bazı veri parçaları kalıcı olarak kaybolur ve geri getirilemez. İnsan gözü ve kulağı, veri kaybını her zaman fark edemeyebilir, ancak özellikle yüksek sıkıştırma oranları kullanıldığında kayıplar daha belirgin hale gelebilmektedir. Bu nedenle, kayıplı sıkıştırma genellikle görüntü, video ve ses dosyalarını sıkıştırmak için kullanılır. Kayıpsız sıkıştırma, kullanıcının tercihine bırakılmayan, özelleştirilemeyen bir sıkıştırma tekniğidir. Bu teknik, veri boyutunu azaltmak için tekrarlı olan verileri azaltıp kodlama yöntemiyle sıkıştırma yapmasıyla sağlanır. Bu yöntemde herhangi bir veri kaybolmaz. Verinin kaybolacağı noktada sıkıştırma devam etmez ve orijinal veri geri elde edilmeye çalışıldığında herhangi bir kayıp söz konusu olmaz. Kayıpsız sıkıştırma, tüm verinin önemli olduğu ve asla kaybolması beklenmediği durumlarda kullanılır. Bu yöntem, metin gibi önemli verilerin olduğu alanlarda kullanılır. Metin verileri, orijinal biçiminde kurtarılmalıdır. Kayıp oluştuğunda ise anlamını kaybeder. Kayıplı ve kayıpsız tüm sıkıştırma teknikleri veri boyutunu belirli bir oranda azalttığından dolayı bant genişliğini daha efektif kullanılmasına olanak tanımaktadır. Bu nedenle, bant genişliğinin etkin kullanılması adına sıkıştırma teknikleri önemini korumaktadır. Web sayfaları ve diğer dijital platformlarda görüntülerin daha hızlı yüklenmesi adına sıkıştırılması gerekmektedir. Bu yüzden kayıplı sıkıştırma tekniği olarak Birleşmiş Fotoğraf Uzmanları Grubu (Joint Photographic Experts Group, JPEG), kayıpsız olarak Taşınabilir Ağ Grafikleri (Portable Network Graphic, PNG) gibi teknikler tercih edilmektedir. PNG, JPEG'e kıyasla görüntü kalitesini korurken belirli oranda sıkıştırma yapar. Ancak bu tür algoritmaların dosya boyutları genellikle JPEG ile kıyaslandığında daha büyük olmaktadır. Bu nedenle, web üzerinde hızlı yükleme ve daha az bant genişliği kullanımı gibi faktörler göz önünde bulundurulduğunda, JPEG sıkıştırması tercih edilmektedir. Sonuç olarak, web tabanlı uygulamalarda daha küçük dosya boyutları ve hızlı yükleme süreleri elde etmek adına bir miktar görüntü kalitesi kaybı kabul edilmektedir. Işık koşulları, donanım yetersizliği, kayıplı veri sıkıştırma veya haberleşme kanallarında maruz kalınan gürültüler gibi faktörlerden dolayı görüntüler düşük çözünürlüklü olabilmektedir. Süper çözünürlük problemi, bilgisayar biliminde düşük çözünürlüklü bir görüntüyü yüksek çözünürlüklü bir görüntüye dönüştürmeyi amaçlamaktadır. Günümüzde, uydu görüntüleri, uzaktan algılama, tıbbi görüntüleme gibi bir çok alanda yüksek çözünürlüklü görüntüler elde etmek için kullanılır. Herhangi bir sebepten dolayı kalite kaybı yaşayan görüntüler, süper çözünürlük yöntemleri kullanılarak görüntü kalitesi belirli bir oranda arttırılabilmektedir. Son yıllarda, süper çözünürlük alanında derin öğrenme tabanlı bir çok çalışma yapılmış ve bir çok model ortaya atılmıştır. Bu modellerin performansları, kalite (benchmark) veri kümelerinde yüksek başarılara imza atmıştır. Derin öğrenme, makine öğreniminin bir uzantısı olan yapay sinir ağlarına dayalı olarak geliştirilmiş bir kavramdır. Yapay sinir ağları, hesaplama birimleri olarak kullandığı yapay nöronlarla insan beyninin düşünme biçimini taklit eder; yapay sinir ağı yapısı, bu nöronların bağlanma şeklini yansıtır. Derin öğrenmenin amacı, altta yatan özelliklerin hiyerarşik bir temsilini öğrenerek verilerin özellik dağılımını belirlemektir. Süper çözünürlük problemini derin öğrenme ile inceleyen çalışmalarda interpolasyon tabanlı düşük çözünürlüklü görüntüler üzerinde iyileştirme sağlamayı konu almaktadır. Ancak, sıkıştırılmış ve kayıp yaşanmış düşük çözünürlüklü görüntüler üzerinde herhangi bir etkisi incelenmemiştir. Derin öğrenme tabanlı yaklaşımlarda elde edilen sonuçlar, farklı türdeki görüntülerin geri kazanımları için araştırma konusu olmaktadır. Süper Çözünürlük Evrişimli Sinir Ağ (Super Resolution Convolutional Neural Network, SRCNN) modeli, süper çözünürlük problemini derin öğrenme yaklaşımıyla inceleyen ilk çalışması olarak kabul edilir. İlkel olarak tanımlanabilecek bu modelin içerisinde 3 katmanlı evrişimli sinir ağı bulunmaktadır. Çok Derin Süper Çözünürlük (Very Deep Super Resolution, VDSR) modeli , SRCNN modelinin daha derin öğrenme yapısına sahip ve artık blok eklenmiş versiyonu olarak geliştirilmiştir. Derin ağ yapısı sayesinde daha yüksek çözünürlüğe sahip sonuçlar üretmektedir. VDSR, süper çözünürlük alanındaki araştırmalarda ve uygulamalarda büyük bir etki yaratmış ve bu alanda bir dönüm noktası olarak kabul edilmiştir. Süper Çözünürlük Yoğun Ağ (Super Resolution Dense Network, SRDenseNet) modeli, içerisinde barındırdığı yoğun bloklar sayesinde çok fazla sayıda özellik çıkarımı yapabilmektedir. Ayrıca bu blokların her birinin birbirleri arasında artık öğrenme tekniğinin kullanılması model performansını daha başarılı hale getirmiştir. SRDenseNet modeli bu yüzden SRCNN ve VDSR modellerine göre daha karmaşık ve daha fazla matematiksel işlemi barındırmaktadır. Bu tez kapsamında, görüntü sıkıştırma işlemi için en çok tercih edilen JPEG yönteminden kaynaklanan kayıpların, derin öğrenme tabanlı süper çözünürlük modellerinden olan SRCNN, VDSR ve SRDenseNet kullanılarak geri kazanımı incelenmiştir. Farklı kalite seviyelerinde sıkıştırılmış görüntülerle bir eğitim veri kümesi oluşturularak inceleme gerçekleştirilmiştir. Eğitim aşamasında ImageNet veri kümesi kullanılırken, test aşamalarında ise süper çözünürlük problemlerinde kullanılan kalite test (benchmark) verilerinden olan SET5, SET14, BSDS100, BSDS200 ve General100 veri kümeleri kullanılmıştır. Çalışmanın sonucunda süper çözünürlük yöntemlerinin JPEG sıkıştırma kayıplarını geri kazanma potansiyeline sahip olduğunu göstermektedir. Ayrıca, süper çözünürlük yöntemlerinin görüntü kalitesini artırmada ve sıkıştırma kayıplarını azaltmada etkili bir çözüm olabileceğini vurgulamaktadır. Gelecekteki çalışmalarda farklı veri kümesi ve modellerin kullanılmasıyla daha ayrıntılı analizler yapılabilir ve bu konuda daha fazla bilgi sağlanabilir.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2024
Anahtar kelimeler
derin öğrenme,
deep learning,
çözünürlük teknikleri,
resolution techniques