Altuzay Öğrenme İle Algısal Ses Kaynak Ayrıştırma

thumbnail.default.alt
Tarih
2013-12-16
Yazarlar
Kırbız, Serap
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu tez çalışmasında, tek bir gözlem işaretinden karışımı oluşturan ses kaynaklarını ayrıştırmak için bir çerçeve sağlayan Negatif Olmayan Matris Ayrıştırma (NOMA) ve Negatif Olmayan Tensör Ayrıştırma (NOTA) yöntemleri kullanılarak, altuzay öğrenmeye dayalı modeller önerilmektedir. Çalışmada öncelikle, polifonik müzik karışımlarından müzik aletlerini ayrıştırmak amacıyla önerilen, algısal olarak ağırlıklandırılmış Negatif Olmayan Çarpan 2-B Ters Evrişimi ve algısal olarak ağırlıklandırılmış Öbeklenmiş NOMA yöntemleri sunulmaktadır. Polifonik müzik işaretlerinin ayrıştırılmasında NOMA-tabanlı yöntemlerde karşılaşılan permütasyon problemi, altuzay gösteriminin ötelenme-ile-değişmezlik özelliği kullanılarak aynı müzik aleti tarafından çalınan notaların öbeklenmesi ile çözülmektedir. Tez kapsamında geliştirilen bir diğer yaklaşımda, konuşma ve müzik işaretlerini ayrıştırmak için, uyarlamalı çözünürlüğe dayalı bir kaynak ayrıştırma yöntemi önerilmektedir. Ayrıştırma, NOTA kullanılarak gerçekleştirilmiş olup, farklı çözünürlüklerde ayrıştırılmış kaynaklar büyükçe enerji sıkıştırma ilkesi yöntemine dayalı olarak uyarlamalı bir şekilde birleştirilmektedir. Son olarak, kaynaklar hakkında önsel bilginin problemin çözümünde kullanılmasına olanak sağlayan Bayesci bir kaynak ayrıştırma yöntemi incelenmektedir. Literatürde kullanılan ölçütler kullanılarak yapılan başarım analizi sonuçları, önerilen altuzay öğrenmeye dayalı ses kaynak ayrıştırma yöntemlerinin, tek kanaldan ses ayrıştırma probleminde sistem başarımını ve ayrıştırılan seslerin algısal kalitesini arttırdığı göstermektedir.
In this thesis, we propose models that provide a framework to separate audio signals from single observation based on subspace learning with Non-negative Matrix Factorization (NMF) and Non-negative Tensor Factorization (NTF). First, we introduce the perceptually weighted Non-negative Matrix Factor 2-D Deconvolution and the perceptually weighted Clustered NMF methods to separate musical instruments in polyphonic music mixtures. Permutation problem encountered in NMF-based separation of polyphonic music mixtures is eliminated by clustering the notes belonging to the same instrument based on shift-invariance property of subspace representations. In order to improve the separation quality we propose an NTF based method where each layer of the tensor represents the single channel mixture at a different time-frequency resolution. The separated sources obtained at various resolutions are then fused adaptively based on the maximal energy compaction principle. It is also evaluated whether Bayesian approach which opens up a way to incorporate prior information available about the sources into the separation scheme, improves the separation quality. Based on the comparisons performed with the existing methods, it is concluded that incorporation of the perceptual human auditory system model into the source separation increases the perceptual quality of the separated sources.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
Ses kaynak ayrıştırma, altuzay öğrenme, algısal maskeleme, algısal kalite., Audio source separation, subspace learning, perceptual masking, perceptual quality
Alıntı