Hece Tabanlı İstatistiksel Yöntemler İle Yazım Hatası Bulma Ve Düzeltme

Eroğlu, Özlem Sema

Hece Tabanlı İstatistiksel Yöntemler İle Yazım Hatası Bulma Ve Düzeltme

dc.contributor.advisor	Adalı, Eşref
dc.contributor.author	Eroğlu, Özlem Sema
dc.contributor.department	Bilgisayar Mühendisliği
dc.contributor.department	Computer Engineering
dc.date	2005
dc.date.accessioned	2015-04-07T13:59:48Z
dc.date.available	2015-04-07T13:59:48Z
dc.description	Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2005
dc.description	Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2005
dc.description.abstract	Bu çalışmada Türkçe için hece tabanlı n-gram bir model oluşturulmuş, bu modelin yazım hatası bulma ve düzeltme uygulamalarında kullanılırlığı araştırılmıştır. N-gram modeller doğal dil işleme uygulamalarında sıklıkla kullanılan istatistiksel bir yöntemdir. Sözcük tabanlı n-gram modeller daha önce çeşitli diller için oluşturulmuş ve farklı doğal dil işleme amaçları için kullanılmıştır. Ancak Türkçe biçimbirimsel açıdan bitişken yapılı bir dil olduğu için kelime tabanlı n-gram modellerin bu dil için yeterli olmayışı hece tabanlı bir modelin çıkış noktası olmuştur. Bir kısım eğitim kümesi üzerinden istatistiksel bilgi toplayarak oluşturulan bigram ve trigram modeller, daha sonra test kümeleri üzerinde yazım hatalarının bulunması ve düzeltilmesi için denenmiş, sonuçları tartışılmıştır Geliştirilen hece tabanlı modelin başarımının ölçülmesi amacıyla aynı eğitim kümeleri kullanılarak harf tabanlı n-gram model de geliştirilmiş ve aynı test kümeleri üzerinde denenerek başarımları kıyaslanmaya çalışılmıştır. Bu tez kapsamında heceleme işlemi gerçekleştirildikten sonra n-gram modellerin oluşturulma aşaması için geliştirilmiş olan uygulama dilin özelliklerinden bağımsız olduğu için başka dillerde de birim olarak harfler ya da heceler seçilerek kullanılabilecek şekilde genelleştirilebilir.
dc.description.abstract	N-gram models are widely used in Natural Language Processing. But languages like Turkish, which are agglutinative in morphological structure, and hence have a huge vocabulary size, are not suitable for word-based n-gram models. In this study, syllable based n-gram models are examined for Turkish. In Turkish, the rules for segmenting words into syllables are very clear and the size of regular syllable vocabulary is considerably low to be compared with word vocabulary size. As the statistical methods are based on counting, this low vocabulary size enables syllables to be favourable for use in n-gram models. With only the rules of vowel and consonant counts of a syllable, 152,048 possible syllables are generated syntactically. Adding the phonological rules resulted 6,160 syllable types for Turkish. To compare the performance of letter based and syllable based n-grams, letter based bigram and trigram models are also taken into the scope of this work. Syllable based bigram and trigram models are developed and tested for spelling checking and correction in Turkish text. Developing the n-gram models are based on counting the distinct syllables and the consecution of syllables in a training corpus according to the degree of the model. Once the model is constructed it can be used by various Natural Language Processing applications. Here, we use the model mainly for spelling checking and correction, and also we concisely show the ability of the model for word generation in Turkish.
dc.description.degree	Yüksek Lisans
dc.description.degree	M.Sc.
dc.identifier.uri	http://hdl.handle.net/11527/476
dc.publisher	Fen Bilimleri Enstitüsü
dc.publisher	Institute of Science and Technology
dc.rights	İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır.
dc.rights	İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission.
dc.subject	doğal dil işleme
dc.subject	n-gram
dc.subject	hece
dc.subject	yazım hatası bulma
dc.subject	yazım hatası düzeltme
dc.subject	natural Language Processing
dc.subject	n-gram
dc.subject	syllable
dc.subject	spelling checking
dc.subject	spelling correction
dc.title	Hece Tabanlı İstatistiksel Yöntemler İle Yazım Hatası Bulma Ve Düzeltme
dc.title.alternative	Spelling Check And Correction By Using Syllable Based N-gram Models
dc.type	Master Thesis

Dosyalar

Orijinal seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: 2863.pdf
Boyut:: 1.17 MB
Format:: Adobe Portable Document Format

İndir

Lisanslı seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: license.txt
Boyut:: 3.14 KB
Format:: Plain Text
Açıklama

İndir

Koleksiyonlar

FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans