Vowel recognition in neural networks

Gücümoğlu, Hakan

Vowel recognition in neural networks

dc.contributor.advisor	Örencik, Bülent
dc.contributor.author	Gücümoğlu, Hakan
dc.contributor.authorID	46457
dc.contributor.department	Bilgisayar Mühendisliği
dc.contributor.department	Computer Engineering
dc.date	1995
dc.date.accessioned	2020-09-23T11:04:19Z
dc.date.available	2020-09-23T11:04:19Z
dc.date.issued	1995
dc.description	Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 1995
dc.description	Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 1995
dc.description.abstract	Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır.
dc.description.abstract	This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time.
dc.description.degree	Yüksek Lisans
dc.description.degree	M.Sc.
dc.identifier.uri	http://hdl.handle.net/11527/18658
dc.language.iso	en
dc.publisher	Fen Bilimleri Enstitüsü
dc.publisher	Institute of Science and Technology
dc.rights	Kurumsal arşive yüklenen tüm eserler telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır.
dc.rights	All works uploaded to the institutional repository are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission.
dc.subject	Karakter tanıma
dc.subject	Yapay sinir ağları
dc.subject	Character recognition
dc.subject	Artificial neural networks
dc.title	Vowel recognition in neural networks
dc.type	Master Thesis

Dosyalar

Orijinal seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: 46457.pdf
Boyut:: 5.61 MB
Format:: Adobe Portable Document Format

İndir

Lisanslı seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: license.txt
Boyut:: 3.16 KB
Format:: Plain Text
Açıklama

İndir

Koleksiyonlar

FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans