Akustik ve görsel özellikleri kullanarak müzik tür sınıflandırması uygulaması
Akustik ve görsel özellikleri kullanarak müzik tür sınıflandırması uygulaması
dc.contributor.advisor | Kırcı, Mürvet | |
dc.contributor.author | Özkahraman, Ali | |
dc.contributor.authorID | 504141240 | |
dc.contributor.department | Elektronik Mühendisliği | |
dc.date.accessioned | 2025-07-16T06:13:49Z | |
dc.date.available | 2025-07-16T06:13:49Z | |
dc.date.issued | 2018-01-02 | |
dc.description | Tez (Yüksek Lisans)-- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2018 | |
dc.description.abstract | Bu teze konu olan çalışmada, sesin hem görsel hem de akustik özellikleri kullanılarak müzik tür sınıflandırması uygulaması geliştirilmiştir. Müzik türleri olarak en çok bilinen dört farklı müzik türü seçilmiştir. Bunlar Elektronik, Jaz, Klasik ve Metal müzik türleridir. Görsel özelliklerin tasarımında SIFT ve SURF görüntü tanımlayıcıları kullanılmıştır. Akustik özellik olarak da Mel Frekans Kepstral Katsayıları (Mel Frequency Cepstral Quefficients(MFCC)) kullanılmıştır. Sınıflandırıcı olarak ise Destek Vektör Makinesi ve k-nn sınıflandırıcısından yararlanılmıştır. Teknolojinin gelişmesiyle insanların otomatik sınıflandırma yapan cihaz ya da yazılımlara güveni artmaktadır. Bununla beraber müzik piyasasının gelişmesiyle otomatik müzik tür sınıflandırması uygulamasına olan ilgi artmakta ve bu tür sistemlerin kullanımı da buna paralel bir şekilde her geçen gün artmaktadır. Bu ihtiyaçtan yola çıkarak müzik tür sınıflandırması uygulaması geliştirilerek bu ihtiyacın giderilmesi amaçlanmıştır. Müzik türleri kendi içinde belirli özelliklere sahiptir. Her türün kendine özgü akustik özellikleri bu türün diğer türlerden ayırt edilmesinde kullanılır. Sese ait akustik özellikler 3 ana sınıftan oluşur. Bunlar Tını özellikleri, Ritmik özellikler ve Makam özellikleridir. Görsel özelliklerle birleştirme işlemi yapıldığından burada sadece Timbral özellikler sınıfına ait olan MFKK özelliği kullanılmıştır. MFKK ses işlemede en çok kullanılan ve en etkin bir özelliktir. Özellikle ses tanıma ve konuşmacı tanıma gibi uygulamalarda karşımıza çıkmaktadır. Müzik tür sınıflandırması uygulamalarında da şimdiye kadar kullanılmıştır. MFKK, insan kulağının sesi algılamasına benzer şekilde çalışır. Yapılan deneylere göre insan kulağı sesi ilk 1000Hz de doğrusal olarak, 1000Hz 'den büyük frekanslarda da logaritmik olarak algılamaktadır. Buradan esinlenerek MFKK özellikleri çıkarılmıştır. Görsel özellik elde edilmesinde müziğin spektrogramı elde edilerek bu spektrogram üzerinde görüntü işleme teknikleriyle özellik çıkarılmıştır. Görsel özellikler kısmında kullanılan görüntü tanımlayıcılardan bir tanesi SIFT' dir. Görüntü tanımlayıcılar bir görüntüye ait olan özelliklerin çıkarılmasını sağlar. SIFT görüntü tanımlayıcısı görüntüden özellik çıkarırken hem görüntü rotasyonundan hem de ölçekten bağımsız çalışmaktadır. Yani görüntü rotasyonunda ya da ölçekte meydana gelebilecek herhangi bir değişiklik SIFT görüntü tanımlayıcısının performansını herhangi bir şekilde etkilememektedir. SURF algoritması da bir diğer görüntü tanımlayıcısı olarak kullanılmıştır. SURF, SIFT algoritmasının hızlandırılmış şeklidir. Dolayısıyla SURF' de hem görüntü rotasyonundan hem de ölçekten bağımsız çalışmaktadır. Görüntü tanımlayıcılar elde edildikten sonra bu tanımlayıcılardan çıkan vektörler kullanılarak özellik kümesi histogramı oluşturulur. Özellik kümesi özellikle son yıllarda görüntü sınıflandırmada kullanılan bir yöntemdir. Görüntü tanımlayıcılardan elde edilen vektörler k-means yöntemi kullanılarak benzerliklerine göre sınıflandırılır ve bunların histogramı alınır. Daha sonra bu histogramlar sınıflandırıcı eğitiminde kullanılır. Sınıflandırıcı olarak da destek vektör makinesi ve k-nn sınıflandırıcısı kullanılmıştır. K-nn sınıflandırıcısı uygulaması basit olan bir sınıflandırma çeşididir. Bu sınıflandırıcının diğer sınıflandırıcılardan farkı eğitim aşamasına gerek duymamasıdır. Eğitim verileri sınıflandırma sırasında bu sınıflandırıcı tarafından direkt olarak kullanılır. Destek vektör makinesi de bir danışmanlı öğrenme çeşididir. Görüntü ve ses işleme alanında sınıflandırıcı olarak en çok kullanılan yöntemdir. Bu sınıflandırıcı farklı sınıfları birbirinden ayırt edebilecek en iyi hyperplane'ı bularak sınıflandırma işlemini gerçekleştirir. Sistem gerçeklemesinde kullanılan temel eleman Raspberry pi vakfı tarafından üretilmekte olan Raspberry pi 2 'dir. Raspberry pi, içinde Linux Raspbian işletim sistemi olan bir karttır. Dolayısıyla aslında Linux yüklü bir bilgisayar gibi de düşünebiliriz. Dolayısıyla herhangi bir yazılım programı(c,c++,python…) yüklenerek yazılım geliştirilmesi mümkündür. Bu çalışma python 2 kullanılarak geliştirilmiştir. Raspberry pi 2 4 çekirdekli ARMV7 cortex 900MHZ işlemci, 1GB RAM ve SD kart yuvasına sahiptir. Yapılan çalışmalar sonucunda elde edilen performansın dört müzik türünü ayırt etmede iyi sonuç verdiği görülmektedir. Sadece görsel özellikler kısmının bile müzik tür sınıflandırmasında kullanılabileceğini göstermiştir. İlk bölümde müzik ve müzik türlerinden bahsedilmiş ve müzik türlerinin kendine özgü özelliklerinin olduğundan bahsedilmiş ve gösterilmiştir. İkinci bölümde de özellik detektörler ve görüntü tanımlayıcılardan bahsedilmiştir. Sesin spektrogram görüntüsü üzerinden özellik detektörler yardımıyla anahtar noktaların bulunup, bu anahtar noktalardan da görüntü tanımlayıcılar yardımıyla özellik çıkarma işlemi uygulandığından bahsedilmiştir. Müteakiben oluşturulan üçüncü bölümde, görüntü tanımlayıcılardan çıkan vektörlerin benzerliklerine göre kümelenmesi ve bunların histogramının çıkarılmasıyla özellik kümesinin elde edilmesinden bahsedilmiştir. Dördüncü bölümde ise sesin akustik özelliklerinden olan Mel Frekans Kepstral Katsayıların dan bahsedilmiştir. Beşinci bölümde hem akustik özellikleri hem de görsel özellikleri sınıflandırma işleminde kullanılan Destek Vektör Makinesi ve knn sınıflandırıcısına değinilmiştir. Son olarak ise altıncı bölümde sistemin gerçeklenmesine değinilmiş ve elde edilen sonuçlar gösterilmiştir. | |
dc.description.degree | Yüksek Lisans | |
dc.identifier.uri | http://hdl.handle.net/11527/27578 | |
dc.language.iso | tr | |
dc.publisher | Fen Bilimleri Enstitüsü | |
dc.sdg.type | Goal 9: Industry, Innovation and Infrastructure | |
dc.subject | müzik | |
dc.subject | music | |
dc.subject | müzik sınıflandırma | |
dc.subject | music classification | |
dc.subject | destek vektör makinesi | |
dc.subject | support vector machine | |
dc.title | Akustik ve görsel özellikleri kullanarak müzik tür sınıflandırması uygulaması | |
dc.title.alternative | Musical genre classification application using both acoustic and visual features | |
dc.type | Master Thesis |