Gauss Karışım Modelleri Kullanılarak Ses İmzalarının Sınıflandırılması

thumbnail.default.placeholder
Tarih
Yazarlar
Herkiloğlu, Kadir
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu tez çalışması kapsamında, Gauss karışım modelleri kullanılarak ses imzalarının sınıflandırılması gerçeklenmiştir. Geliştirilen sistemde, daha önceden sisteme eğitim için verilen ses verileri kullanılarak, ses imzaları modellenmekte ve sistem girişine verilen 2 saniyelik ses bölütünün hangi parçaya veya hangi müzik türüne ait olduğu yüksek hızla, yüksek doğruluk oranıyla ve düşük yanlış alarm oranıyla bulunabilmektedir. Geliştirilen sistemle literatürde bulunan sistemlerle aynı tanıma performansına ulaşılmıştır. Tez kapsamında ses imzası modelleme Gauss Karışım Modelleri kullanılarak yapılmış ve imzalar Bayes sınıflandırıcı ile sınıflandırılmıştır. Karşılaştırma açısından testler Destek Vektör Makinesi kullanılarak ses imzalarını öğrenen ve sınıflandıran bir sistem için de tekrarlanmıştır. Testler kapsamında tür ve parça ayrımı performansları incelenmiştir. Bunlara ek olarak sistemin, mp3 sıkıştırma, kanal gürültüsü ekleme, zamanda sıkıştırma ve 10kHz kesim frekanslı alt geçiren süzgeçle filtreleme ataklarına karşı gürbüzlüğü test edilmiş ve sonuçları tablolar ve grafikler halinde sunulmuştur. Geliştirilen ses imzası tanıma sisteminin işlemsel karmaşıklığı düşük olup hızlı modelleme ve sınıflandırma yapabildiği gibi arama veritabanının kolaylıkla güncellenmesine olanak tanır. Bu da geniş müzik veritabanlarının kolaylıkla işlenmesine olanak sağlamaktadır.
In this thesis, a system that classifies audio fingerprints using Gaussian Mixture Models classifier, is proposed. The system has the ability to decide the music clip and the music type of a 2 seconds long audio segment, fast, with a high accuracy and with low positive false alarm ratio. The proposed system brings an innovation by providing robustness to time compression attacks to which most of the current systems are not robust. The classifier gives the results much faster than ordinary searching algorithms with a high identification percentage. 2 second granularity is the second innovation proposed in this thesis work. This level of granularity is succeeded with keeping the high performance and it is below the MPEG21 standard. The performance tests for identification of audio fingerprints are performed by using GMM classifier. However, in order to compare the results the same tests with the same conditions are repeated by using Support Vector Machine. In these tests, the ability to identify the clip and the music type of the segments is observed. Furthermore, the robustness of the system to mp3 compression, White Gaussian channel noise adding, time compression, and 10kHz low pass filtering attacks are examined. Beyond these, the proposed system has a low computational complexity and can easily be updated. So it provides fast and automatic process of large audio databases.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2005
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2005
Anahtar kelimeler
Ses İmzası, Gauss Karışım Modeli, Destek Vektör Makinesi, MPEG21, Beklenti Enbüyükleme, Audio fingerprint, GMM, MPEG21, SVM, Expection Maximization
Alıntı