Itumorph - Türkçe İçin Daha Geniş Kapsamlı Ve Başarılı Bir Biçimbilimsel Çözümleyici

thumbnail.default.alt
Tarih
2014-02-20
Yazarlar
Şahin, Muhammet
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
İnsan dilinin bilgisayarlar tarafından işlenmesi, doğal dil işlemenin temel konusu olup, yapay zekanın bir alt dalıdır. Amacı insan-insan iletişimini ve insan-bilgisayar iletişimini artırmaktır. Doğal dil işlemenin birçok uygulamasında, bir biçimbilimsel çözümleme bileşenine ihtiyaç duyulur. Biçimbilimsel çözümleme, bir sözcüğün kökünü ve eklerini doğru bir şekilde ayırıp, bunlara ait gerekli sınıf etiketlerini üretmektir. Biçimbilimsel çözümlemenin çıktıları, birçok doğal dil işleme uygulamasının ana girdisini oluşturmaktadır. Türkçe için halihazırda birçok biçimbilimsel çözümleyici mevcuttur. Ancak bunlar, bazı durumlarda çözümlemesi istenen sözcükler için geçerli sonuç üretememekte, bazı durumlarda ise gereğinden fazla sonuç üreterek analiz çıktılarını kullanan üst düzey sistemlerin çalışmasını olumsuz yönde etkilemektedirler. Bu tez çalışmasında, önceki çalışmaların eksik ve sorunlu görülen yönleri düzeltilerek Türkçe için daha geniş kapsamlı ve başarılı bir biçimbilimsel çözümleyici geliştirilmiştir. Çözümleyicinin geliştirilmesinde sonlu durumlu dönüştürücüler teknolojisi (FST - Finite State Transducer) kullanılmıştır. Tasarlanan biçimbilimsel çözümleyici farklı FST teknolojileri (XFST - Xerox Finite State Transducer}, HFST - Helsinki Finite State Transducer) üzerinde çalışabilir hale getirilmiştir. Buna ek olarak akademik çalışmalara hizmet etmesi amacıyla tools.nlp.itu.edu.tr adresinden bir web servisi olarak hizmete açılmıştır. Bununla birlikte Türkçe olmadığı halde Türkçe cümlelerin içinde kullanılan ve gövde halleri Türkçe sözlükte bulunmayan sözcüklerin (örn:serverlar, opsiyonel, vb) analizini yapabilen ITUMORPH ile isteğe bağlı birlikte çalışan ek bir biçimbilimsel çözümleyici (BKA - bilinmeyen kelime analizcisi) de geliştirilmiştir. Yapılan testler sonucu, tez kapsamında geliştirilen biçimbilimsel çözümleyicinin üst DDI araçlarının başarımına olan etkisi gösterilmiştir: ITUMORPH un kullanılmasının, farklı test kümelerinde biçimbilimsel belirsizlik giderme başarımlarını ortalama %2,83 oranında artırdığı gözlemlenmiştir. Benzer şekilde aynı test kümelerinde yapılan kapsam testlerinde, çözümlemesi yapılabilen sözcük oranının ITUMORPH ile ortalama %10,12 ITUMORPH+BKA ile ortalama %12 arttığı görülmüştür.
The processing of human language by computers is the main objective of Natural Language Processing (NLP), which is a sub-field of artificial intelligence. NLP aims to enhance human-human communication and facilitate human-computer communication. In many such applications of NLP, a morphological analyzer has to be used. The task of morphological analysis can be defined as trying to deduce the stem of a word and parse the affixes constituting a word, marking their potential usages. The output of morphological analysis provides the essential input for high-level NLP applications. Morphological analyzers are generally rule-based systems implemented using finite state transducers. The development of a morphological analyzer requires time and effort, and its performance depends on resources such as the lexicon and the phonetic modelling. Morphological analyzers are useful in alleviating lexicon word deficiencies and data sparseness problems often encountered in various natural language processing systems.In this thesis work, the morphological analyzer developed by Oflazer, which has been the state-of-the-art analyzer so far, has been taken as the baseline. Eventually, most deficient affix sequences have been allowed, and not only over-generation has been greatly mitigated, but also coverage has been increased by the finite-state transducer we developed using the flag diacritics method. The developed finite-state transducer is enabled to work both on XFST and HFST, and made commonly available through a public web interface. (tools.nlp.itu.edu.tr) Additionally, an analyzer (BKA) with the ability to come up with analyses for unknown words is developed using our ITUMORPH. The unknown word analyzer is essentially an extension of the main analyzer, which makes use of wildcard entries that are able to morph into any phonologically valid Turkish stems. As such, the analyzer derives the input word from a lexicon stem if possible, or backs off to the unknown stem expression if the lexicon did not contain a valid stem. During our evaluations, we showed the impact of our morphologycal analyzer on high level NLP tools performances. (compared to using Oflazer s analyzer) We observed that using ITUMORPH as the subtask of morphologycal disambiguation (MD) improves the average MD performance by %2,83. Similarly, during tthe coverage tests on the same data sets, it is observed that ITUMORPH improved the coverage by %10,12 and ITUMORPH used together with BKA improved the coverage by %12 in average.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2014
Anahtar kelimeler
Türçe, biçimbilimsel çözümleyici, bayrak işaretleri, Turkish, finite state morphology, flag diacritics
Alıntı