Vowel recognition in neural networks

thumbnail.default.alt
Tarih
1995
Yazarlar
Gücümoğlu, Hakan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır.
This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 1995
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 1995
Anahtar kelimeler
Karakter tanıma, Yapay sinir ağları, Character recognition, Artificial neural networks
Alıntı