Örneklem Tabanlı Gürbüz Konuşma Tanıma

thumbnail.default.placeholder
Tarih
2015-02-12
Yazarlar
Aktürk, Fatih
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmadaki amaç örneklem tabanlı yöntemlerin gürbüz konuşma tanıma konusundaki başarımını ölçmektir. Bu amaçla "Seyrek Sınıflandırma" isimli bir yöntem gerçeklenmiştir. Ayrıca elde edilen sonuçlar, yöntemin başarımını ölçmek adına klasik SMM-GKM tabanlı bir konuşma tanıma sisteminin sonuçları ile karşılaştırılmıştır. Çalışmanın birinci bölümünde otomatik konuşma tanıma sistemleri hakkında kısa bilgi verilmiştir. Devamında ise gürültünün konuşma tanıma işlemine olan olumsuz etkisinden bahsedilmiştir ve literatürde kullanılan gürbüz konuşma tanıma yöntemlerine değinilmiştir. Bunlardan biri çok durumlu eğitim yöntemidir. Ancak bu yöntem yüksek başarım oranları elde edebilmek için çok fazla gürültü çeşidini içinde barındıran veri setleri gerektirmektedir. Bunun yanında gürültü içeren konuşmalardan eğitilen modeller temiz konuşmaları tanırken, temiz konuşmalardan eğitilen modellere göre daha kötü başarım vermektedir. Bu amaçla literatürde model dengeleme ve öznitelik iyileştirme gibi yaklaşımları kullanan yöntemler kullanılmaktadır. Bunlara ek olarak, gürbüz konuşma tanıma için, literatürdeki örneklem tabanlı konuşma tanıma yöntemlerinden biri olan Seyrek Sınıflandırma yöntemi kullanılmaktadır. Bu yöntem modeli ya da öznitelikleri güncellemek yerine, gürültülü konuşmaları gürültü ve konuşma örneklemlerinin seyrek doğrusal birleşimi cinsinden ifade ederek bir kaynak ayrıştırması yapmaktadır. Bu yolla gürültülü bir konuşmanın temiz konuşma bileşenine yakınsanmaktadır. İkinci bölümde Markov zinciri ve SMM hakkında ayrıntılı bilgi verilmiştir.SMM'ye ait üç problem ve bu problemlere çözüm olarak kullanılan algoritmalar anlatılmıştır.  Üçüncü bölümde konuşma tanıma sisteminin bileşenleri, SMM'nin konuşma tanıma yapısında nasıl kullanıldığı, eğitim ve test işlemlerinin nasıl yapıldığı, öznitelik vektörlerinin çıkarım şeması verilmiştir.  Dördüncü bölümde örneklem tabanlı konuşma tanıma hakkında bilgi verilmiştir. Öncelikle literatürde çokça kullanılan ve Destek Vektör Makineleri, Yapay Sinir Ağları ve Saklı Markov Modelleri gibi örnekleri olan global modelleme teknikleri ve örneklem tabanlı modelleme tekniklerinin farkı üzerinde durulmuştur. Daha sonra örneklem tabanlı teknikleri konuşma tanımaya uygularken takip edilen adımlar açıklanmıştır. Bölümün devamında ise seyrek gösterimin örneklem tabanlı konuşma tanıma uygulamalarında kullanımı incelenmiştir. Son olarak ise bu çalışmada gerçeklenen örneklem tabanlı Seyrek Sınıflandırma yöntemi anlatılmıştır. Beşinci bölümde yapılan deneyler ve sonuçları anlatılmıştır. Öncelikle eğitim ve test setlerinin nasıl elde edildiği ve hangi işlemlerden geçirildiği anlatılmıştır. Daha sonra bu setler kullanılarak HTK ile yapılan eğitim ve test işlemleri, sonrasında ise seyrek sınıflandırma yöntemi için yapılan çalışmalar anlatılmıştır. Bu çalışmanın sonucunda Seyrek Sınıflandırma yöntemi yardımıyla bir konuşma tanıma sistemi gerçeklenmiştir. Bu yöntem HTK yardımıyla gerçeklenen klasik bir konuşma tanıma sisteminin sonuçları ile karşılaştırılmış ve Seyrek Sınıflandırma yönteminin düşük İGO değerleri için SMM-GKM tabanlı sisteme göre daha iyi başarım sağladığı görülmüştür.
This work aims to measure the achievement of exemplar based noise robust speech recognition technique which is called Sparse Classification. This technique was implemented in MATLAB environment and its results was compared to HMM-GMM system results which was implemented via HTK. In the first chapter, we present introductory knowledge about the history of automatic speech recognition systems. While automatic speech recognition systems has become significantly accurate in clean speech conditions and for well pronounced speech, performance still degrades rapidly for conversational speech and when the speech signal is corrupted by noise. Such noises can be originated from environment, background music or other speakers. Automatic speech recognition performance drops with increasing levels of noise because, the observed acoustic features no longer match the acoustic models learned during training. To handle this shortcoming, multi-condition training approach was proposed in literature. But this approach requires large data sets containing several noise types. Even if this is achieved, multi-condition trained acoustic models cannot yield high accuracies on clean speeches like acoustic models trained from clean speeches.  The other approaches has been used in literature can be categorized into two groups: model compensation and feature enhancement. Model compensation techniques update the model parameters to reduce the mismatch between acoustic model and observed features while feature enhancement techniques update the observation due to same purpose. However, there is another method was proposed in literature to provide noise robustness called Sparse Classification. This method represents the noisy speech as sparse linear combinations of exemplars. In this context, exemplars are speech patches that spans the time interval of  25-300 ms. Sparse Classification automatically conducts a source separation because, if we collect the clean speech exemplars with their weights, we can estimate the clean speech part of a noisy speech. In the second chapter, we review the Markov chains and the HMM structure. Also, we explain three problems of HMM and the algorithms which are used as solutions to these problems. These problems are likelihood computation, decoding and learning. For likelihood computation we are given an HMM structure and an observation sequence. We need to find this observation sequence for given HMM. Forward algorithm is the solution of this problem. Second problem is decoding. In this problem we are given an HMM structure and an observation sequence. We need to find the best hidden state sequence for this observation. Viterbi algorithm is the solution of this problem. Third and last problem is learning. We are given state alphabet and an observation sequence for this problem and we have to find the state transitions and observation density functions. Baum-Welch algorithm is the solution of this problem.  In the third chapter, we present how an HMM-GMM based system can be built and what are the main components of these systems. First, we explain the speech recognition architecture. Secondly, MFCC features and the extraction scheme is reviewed. In MFCC extraction scheme section, all steps are explained which are pre-emphasising, windowing, Discrete Fourier Transform, Mel Filter Bank and Log, Inverse Discrete Fourier Transform and extraction of delta features. Third subsection is about the acoustic likelihood computation and GMM. After that, we give language models and lexicons and how they are used in speech recognition architecture, decoding and training stages and finally evaluation metric Word Error Ratio. Also we give a connected digit recognition structure as an example to see the usages of these components. In the fourth chapter, we provide the comparison between the global data modeling approaches like HMMs, Artificial Neural Networks and Support Vector Machines and the exemplar based approaches which are used in automatic speech recognition. Moreover, main steps that are used in exemplar based approaches are given. After that, the sparse representations with exemplar based methods and speech recognition applications of this combination are reviewed. Finally, Sparse Classification method which is implemented in this work is explained in detail. Sparse Classification is a hybrid method which employs HMM state transition probabilities and exemplar weights for acoustic likelihoods instead of GMMs. If we have a dictionary that contains HMM state label information about every exemplar, then we can use this structure with classical Viterbi algorithm. For exemplars, we used Mel scaled magnitude energies with 23 frequency bands and 20 consecutive time frames. Hence, we have windows size of $23$ $\times$  $20$. Every time frame corresponds to 10 ms so, exemplars span time intervals length of 200 ms. Also, another approach which is used for modelling arbitrary length signals is presented which is called sliding window approach. In this approach, windows which have same length with exemplars, are shifted one frame at a time and for each window sparse representation is found via Non-Negative Matrix Factorisation. For every window, 200 iterations are run with the given update rule in Chapter 4. With this approach, for an arbitrary length speech file, sparse representations can be found. The fifth chapter presents the experiments conducted in this work. The data set contains connected digit sequences from TIDIGITS. Noise signals obtained from NOIZEUS data set. The noise signals added to these clean connected digit sequences at different SNR values which are 20, 15, 10, 5, 0 and -5 dB for test set. There are also clean speech sets. For training set we added noises for only 20, 15, 10, 5 dB and also we have clean subset. We trained two HMM-GMM acoustic models via HTK. One of them is trained from clean speeches, and the other one is trained from multi-condition training set. These models employs word HMM structures which have 16 states and GMMs including 3 mixtures for every digit. Also, we have a silence model employing three states and GMMs including 6 mixtures for every state. We used MFCC vectors length of 39 and they contain 12 Mel cepstrum coefficients, energy feature, delta and delta delta components. Speech recognition results were given for both acoustic models. Normally clean speech model gives very poor results especially for lower SNR values except for clean speech test sets. We also give Sparse Classification experiment results for three cases which are given in detail. Moreover we obtain the speech and noise dictionary of exemplars. The speech part of this dictionary has been gained via forced alignment by using clean speech acoustic model and the clean version of training database. Finally we have very promising results especially for -5 dB subsets. HTK gives better results for the subsets which have higher SNR values. As a result, Sparse Classification approach has an effective aspect for highly corrupted speech by noise but it needs to be improved for speeches which have better qualities.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
Gürbüz Konuşma Tanıma, Seyrek Gösterim, Örneklem Tabanlı Yöntemler, Noise Robust Speech Recognition, Sparse Representation, Exemplar Based Methods
Alıntı