Türkçe Metin Seslendirme

thumbnail.default.alt
Tarih
2010-06-29
Yazarlar
Şentürk, Tuncay
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmada temel amaç, Türkçe metinlerin insan sesine dönüştürülebilmesi ve “Türkçe Metin Seslendirme” sisteminin geliştirilmesidir. Bu sistem geliştirilirken üç farklı yöntem incelenmiş, uygulanmış ve aralarındaki anlaşılırlık istatistiksel olarak ölçülmüştür. İlk olarak, “çift-ses (diphone) eklemeli yöntem” uygulanmıştır. Anlaşılırlığı düşük olmasa da doğallıktan uzak sonuçlar elde edilmiştir. Bunun üzerine, donanım maliyetinin de azalması ile, çift-ses eklemeye nazaran günümüz koşullarında daha kabul görmüş “hece eklemeli yöntem” geliştirilmiştir. Anlaşılırlık olarak ve ses kalitesinde olumlu yönde fark olduğu istatistiksel olarak ispatlanmıştır. Son olarak, ses süre ve şiddetinin değiştirilmesi suretiyle, vurgu ve tonlamada da başarılı sonuçlar elde edilmiştir. Tüm çalışmalar için gerekli ses dosyalarının hazırlanması amacıyla önce Türk Dil Kurumunun ses veritabanı kullanılmıştır. Ancak bu veritabanında kelimelerin vurgulu ve iki farklı kişi (erkek ve kadın) tarafından karışık olarak okunmuş olması dolayısıyla çok olumlu sonuçlar elde edilememiştir. Daha sonra, yazılan program vasıtası ile MBROLA kütüphanelerinin kullanılması ile, tüm ses dosyalarının otomatik olarak oluşturulabilmesi sağlanmıştır. Oluşturulan bu ses dosyalarına, genlik dengeleme algoritması uygulanmış, ses dosyaları arasındaki en fazla ve en az genlik seviye farklılıkları aza indirgenerek anlaşılırlık arttırılmıştır. Son olarak bu hecelerin birleşme noktalarında seslerin türlerine göre belirlenen kurallar uygulanarak, gerçek ses dosyalarındaki dalga şekillerine benzer doğallık oluşturulmaya çalışılmıştır. Hazırlanan program üç ana bileşenden oluşmaktadır: • Metinden XML dosyası oluşturma : İlk bileşen, girilen metni dilbilgisi kuralları çerçevesinde, belirlenen biçimde bir XML yapısına dönüştürür. • XML’den ses üretme : Bu bileşen, belirlenen kurallar doğrultusunda hazırlanmış XML dosyasını veya katarını, Türkçe ses dosyasına dönüştürür. • Kullanıcı arayüzü : Programın kullanılabilmesi için hazırlanmış arayüz bileşenidir. Her iki bileşen, birbirine bağlanmıştır ve görsel arayüz ile kullanıcının girmiş olduğu metin, yine kullanıcının belirlemiş olduğu yöntem ile ses dosyasına dönüştürülüp, seslendirilir. Tüm yöntemlerin ayrı ayrı anlaşılırlığının tespit edilebilmesi için; cümleler, farklı yaş gruplarındaki insanlara dinletilmiş ve alınan cevaplara göre belirli formül yardımı ile yüz üzerinden puan verilecek şekilde hesaplama yapılarak, bir matriste sunulmuştur. Son olarak, görme engellilerin de ekran görüntüsü gerektirmeden kullanabileceği metin düzenleme program hazırlanmıştır.
The main purpose of this study is development of a Turkish Text Synthesizer System which converts text, written in Turkish, to human voice. Three different methods are examined for developing this system, these three methods are implemented and their clarity is measured statistically. First, the diphone concatenation method was applied. While the words were understandable, results were far from natural. Thus, considering the reduction of hardware costs in todays conditions the more accepted syllable concatenation method” was developed. It is statisticaly proven that there is positive improvement with clarity and sound quality with this method. Finally, by changing the amplitude and duration of the sounds, more successful results were obtained for intonation. The Turkish Language Association’s (TDK) database is used to prepare the necessary audio files in the begining of this study. However, in this database the sound of words were accented, and the database was vocalized by two different people (men and women) therefore favorable results could not be achieved. Then, by means of a software program developed, MBROLA library was used to automatically create all the sound files. The amplitude balancing algorithm has been applied to these audio files, and clarity was increased by normalizing the maximum and minimum amplitude differences between sound files. Finally, more natural sounds which have a wave shape similar to real audio files were created by applying the rules, determined according to the type of sound, to the syllables vanishing point. The program consists of three main components: • Text to XML: the first component converts the text to the specified XML format by given grammar rules framework. • XML to sound: This component converts the XML file or string, which has been prepared in accordance with the rules specified, to Turkish audio files. • Graphical User interface: the interface is the component designed to use the program. Both components are linked together. The text entered by the user interface, is converted to audio file utilizing the method selected by the user, and then vocalized. In order to determine and compare clarity of all methods set sentences were listened by different age groups and their answers were formulated to a score from 0 to 100, and the results were given in a matrix. Finally, a text editing software program is developed to help the visually impaired edit text without the need for a screen image.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2010
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2010
Anahtar kelimeler
Türkçe, Metin seslendirme, Görme Engelliler, Turkish, Text to speech, Visually impaired
Alıntı