Bulanık Mantık Ve Yapay Sinir Ağları İle Türkçe Yazım Denetleyicisi

thumbnail.default.alt
Tarih
Yazarlar
Dilsiz, Simla
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Yapay Zeka, insanın düşünme sistemini modellemeyi amaçlayan çalışmalar bütünür. Doğal Dil İşleme, Yapay Zekanın bir alt koludur. Türkçe bağlantılı ve kurallı bir dildir. Köke eklenen ekler ile birçok yeni sözcük türetilebilmektedir. Bu özelliği ile dilde kullanılan sözcük sayısı yönetilemez düzeylere ulaşabilmektedir. Ayrıca dile sonradan eklenmiş kural dışı sözcükler bulunmaktadır. Bu tezde, Türkçe’nin bağlantılı dil yapısından yola çıkılıp kök ve ekler temel alınarak bir Türkçe yazım denetleme çalışması yapılmıştır. Sözlük yerine bir eğitim kümesinden elde edilmiş kaynak kümeler kullanılmış, kural tabanlı bir mantık yerine sadece temel birkaç ses uyumu kuralının kullanıldığı asıl yapının istatistiksel temeller üzerine oturtulduğu yeni bir yaklaşım getirilmeye çalışılmıştır. Çalışma iki ana kısımdan oluşmaktadır: Eğitim, Denetim. Eğitim kısmında kök ve eklerine ayrılmış bir eğitim kümesinden kök ve ekler için iki ayrı kaynak kümesi oluşturulmuştur. Denetim aşamasında denetimi yapılacak sözcükler de kök ve eklerine ayrılmış, hem kök hem de ekler kendilerine ait kaynak kümeler kullanılarak ayrı ayrı denetlenmiştir. Türkçe’de eklerin sıralanışı önemli olduğu için ekler, art arda gelen ek çiftleri şeklinde ele alınmıştır. Denetleme için iki kök ya da iki ek çifti karşılaştırılmış ve derecelendirilmiştir. Dereceleme, bulanık mantık ile geliştirilmiş bir benzerlik oranı, hataların öğrenilmesi ile elde edilmiş bir öğrenme derecesi ve kullanım sıklıklarından oluşan bütünleşik bir yapıdadır. Her denetleme sonrası sistem yapılan hataları öğrenmekte, sonraki denetimlerde bu öğrenilmiş bilgileri de dereceleme yapısında kullanmaktadır. Öğrenme için Yapay Sinir Ağları kullanılmıştır. Denetlenen kök ve ekler Türkçe’nin en temel birkaç ses uyumu kuralı gözetilerek birleştirilip, yorumlanmıştır. Hatalı sözcükler için denetleme sonuçlarından elde edilen önermeler yapılmıştır.
In this study, starting from the point of Turkish’s being an agglutinative language, a root and suffix based spell checking and correction is implemented. Instead of a dictionary, a reference set – created from a training set – is used. Because of exceptions and violations in the language, a solely rule-based approach would not help. Thus, a statistical based structure is used with only some basic Turkish consonant and vowel harmony rules. This thesis consists of two main parts: Training and Checking&Correction. In the training part, from a big morphological analyzed train set, root and suffix reference sets are created. While doing this, occurance rates are also calculated. In the checking and correction part, text to be checked is parsed into its roots and suffixes by a morphological analyzer. These roots and suffixes are checked against the reference sets produced in the training part. The order of suffixing is important in Turkish, thus suffixes are handled as consecutive suffix pairs. For checking and correction, two roots or two suffix pairs are compared and scored. Scoring is a combination of Fuzzy Logic based string match ratio, learning score and occurance ratio. After the correction of a sample text, system learns the errors made and uses this knowledge in the successive checking and correction operations. Learning is managed with Artificial Neural Networks. Finally, a set of candidate root and suffix corrections are produced, which are then combined with some basic Turkish consonant and vowel harmony rules. The resulting words are proposed.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2005
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2005
Anahtar kelimeler
Doğal Dil İşleme, Yazım Denetleme, Bulanık Mantık, Yapay Sinir Ağları, öğrenme, Spell Checking, Spell Correction, Fuzzy Logic, Artificial Neural Networks, Learning
Alıntı