Itumorph - Türkçe İçin Daha Geniş Kapsamlı Ve Başarılı Bir Biçimbilimsel Çözümleyici

dc.contributor.advisor Eryiğit, Gülşen tr_TR
dc.contributor.author Şahin, Muhammet tr_TR
dc.contributor.authorID 10028289 tr_TR
dc.contributor.department Bilgisayar Mühendisliği tr_TR
dc.contributor.department Computer Engineering en_US
dc.date 2014 tr_TR
dc.date.accessioned 2014-02-20 tr_TR
dc.date.accessioned 2015-04-07T13:59:43Z
dc.date.available 2015-04-07T13:59:43Z
dc.date.issued 2014-02-20 tr_TR
dc.description Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014 tr_TR
dc.description Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2014 en_US
dc.description.abstract İnsan dilinin bilgisayarlar tarafından işlenmesi, doğal dil işlemenin temel konusu olup, yapay zekanın bir alt dalıdır. Amacı insan-insan iletişimini ve insan-bilgisayar iletişimini artırmaktır. Doğal dil işlemenin birçok uygulamasında, bir biçimbilimsel çözümleme bileşenine ihtiyaç duyulur. Biçimbilimsel çözümleme, bir sözcüğün kökünü ve eklerini doğru bir şekilde ayırıp, bunlara ait gerekli sınıf etiketlerini üretmektir. Biçimbilimsel çözümlemenin çıktıları, birçok doğal dil işleme uygulamasının ana girdisini oluşturmaktadır. Türkçe için halihazırda birçok biçimbilimsel çözümleyici mevcuttur. Ancak bunlar, bazı durumlarda çözümlemesi istenen sözcükler için geçerli sonuç üretememekte, bazı durumlarda ise gereğinden fazla sonuç üreterek analiz çıktılarını kullanan üst düzey sistemlerin çalışmasını olumsuz yönde etkilemektedirler. Bu tez çalışmasında, önceki çalışmaların eksik ve sorunlu görülen yönleri düzeltilerek Türkçe için daha geniş kapsamlı ve başarılı bir biçimbilimsel çözümleyici geliştirilmiştir. Çözümleyicinin geliştirilmesinde sonlu durumlu dönüştürücüler teknolojisi (FST - Finite State Transducer) kullanılmıştır. Tasarlanan biçimbilimsel çözümleyici farklı FST teknolojileri (XFST - Xerox Finite State Transducer}, HFST - Helsinki Finite State Transducer) üzerinde çalışabilir hale getirilmiştir. Buna ek olarak akademik çalışmalara hizmet etmesi amacıyla tools.nlp.itu.edu.tr adresinden bir web servisi olarak hizmete açılmıştır. Bununla birlikte Türkçe olmadığı halde Türkçe cümlelerin içinde kullanılan ve gövde halleri Türkçe sözlükte bulunmayan sözcüklerin (örn:serverlar, opsiyonel, vb) analizini yapabilen ITUMORPH ile isteğe bağlı birlikte çalışan ek bir biçimbilimsel çözümleyici (BKA - bilinmeyen kelime analizcisi) de geliştirilmiştir. Yapılan testler sonucu, tez kapsamında geliştirilen biçimbilimsel çözümleyicinin üst DDI araçlarının başarımına olan etkisi gösterilmiştir: ITUMORPH un kullanılmasının, farklı test kümelerinde biçimbilimsel belirsizlik giderme başarımlarını ortalama %2,83 oranında artırdığı gözlemlenmiştir. Benzer şekilde aynı test kümelerinde yapılan kapsam testlerinde, çözümlemesi yapılabilen sözcük oranının ITUMORPH ile ortalama %10,12 ITUMORPH+BKA ile ortalama %12 arttığı görülmüştür. tr_TR
dc.description.abstract The processing of human language by computers is the main objective of Natural Language Processing (NLP), which is a sub-field of artificial intelligence. NLP aims to enhance human-human communication and facilitate human-computer communication. In many such applications of NLP, a morphological analyzer has to be used. The task of morphological analysis can be defined as trying to deduce the stem of a word and parse the affixes constituting a word, marking their potential usages. The output of morphological analysis provides the essential input for high-level NLP applications. Morphological analyzers are generally rule-based systems implemented using finite state transducers. The development of a morphological analyzer requires time and effort, and its performance depends on resources such as the lexicon and the phonetic modelling. Morphological analyzers are useful in alleviating lexicon word deficiencies and data sparseness problems often encountered in various natural language processing systems.In this thesis work, the morphological analyzer developed by Oflazer, which has been the state-of-the-art analyzer so far, has been taken as the baseline. Eventually, most deficient affix sequences have been allowed, and not only over-generation has been greatly mitigated, but also coverage has been increased by the finite-state transducer we developed using the flag diacritics method. The developed finite-state transducer is enabled to work both on XFST and HFST, and made commonly available through a public web interface. (tools.nlp.itu.edu.tr) Additionally, an analyzer (BKA) with the ability to come up with analyses for unknown words is developed using our ITUMORPH. The unknown word analyzer is essentially an extension of the main analyzer, which makes use of wildcard entries that are able to morph into any phonologically valid Turkish stems. As such, the analyzer derives the input word from a lexicon stem if possible, or backs off to the unknown stem expression if the lexicon did not contain a valid stem. During our evaluations, we showed the impact of our morphologycal analyzer on high level NLP tools performances. (compared to using Oflazer s analyzer) We observed that using ITUMORPH as the subtask of morphologycal disambiguation (MD) improves the average MD performance by %2,83. Similarly, during tthe coverage tests on the same data sets, it is observed that ITUMORPH improved the coverage by %10,12 and ITUMORPH used together with BKA improved the coverage by %12 in average. en_US
dc.description.degree Yüksek Lisans tr_TR
dc.description.degree M.Sc. en_US
dc.identifier.uri http://hdl.handle.net/11527/429
dc.publisher Fen Bilimleri Enstitüsü tr_TR
dc.publisher Institute of Science and Technology en_US
dc.rights İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır. tr_TR
dc.rights İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. en_US
dc.subject Türçe tr_TR
dc.subject biçimbilimsel çözümleyici tr_TR
dc.subject bayrak işaretleri tr_TR
dc.subject Turkish en_US
dc.subject finite state morphology en_US
dc.subject flag diacritics en_US
dc.title Itumorph - Türkçe İçin Daha Geniş Kapsamlı Ve Başarılı Bir Biçimbilimsel Çözümleyici tr_TR
dc.title.alternative Itumorph – A High Coverage And High Performance Morphological Analyzer For Turkish en_US
dc.type Thesis en_US
dc.type Tez tr_TR
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
14343.pdf
Boyut:
437.48 KB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
3.14 KB
Format:
Plain Text
Açıklama