Vowel recognition in neural networks

dc.contributor.advisor Örencik, Bülent tr_TR
dc.contributor.author Gücümoğlu, Hakan tr_TR
dc.contributor.authorID 46457 tr_TR
dc.contributor.department Bilgisayar Mühendisliği tr_TR
dc.contributor.department Computer Engineering en_US
dc.date 1995 tr_TR
dc.date.accessioned 2020-09-23T11:04:19Z
dc.date.available 2020-09-23T11:04:19Z
dc.date.issued 1995 tr_TR
dc.description Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 1995 tr_TR
dc.description Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 1995 en_US
dc.description.abstract Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. tr_TR
dc.description.abstract This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. en_US
dc.description.degree Yüksek Lisans tr_TR
dc.description.degree M.Sc. en_US
dc.identifier.uri http://hdl.handle.net/11527/18658
dc.language.iso en
dc.publisher Fen Bilimleri Enstitüsü tr_TR
dc.publisher Institute of Science and Technology en_US
dc.rights Kurumsal arşive yüklenen tüm eserler telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır. tr_TR
dc.rights All works uploaded to the institutional repository are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. en_US
dc.subject Karakter tanıma tr_TR
dc.subject Yapay sinir ağları tr_TR
dc.subject Character recognition en_US
dc.subject Artificial neural networks en_US
dc.title Vowel recognition in neural networks en_US
dc.type Master Thesis en_US
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.alt
Ad:
46457.pdf
Boyut:
5.61 MB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
3.16 KB
Format:
Plain Text
Açıklama