Türkçe İçin İyileştirilmiş Biçimbirimsel Çözümleyici
Yükleniyor...
Dosyalar
Tarih
item.page.authors
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Institute of Science and Technology
Özet
Doğal dil işleme (DDİ) yapay zekâ ve dil biliminin bir alt dalı olup doğal dillerin kurallarını analiz ederek anlaşılmasını ve/veya yeniden oluşturulmasını hedefler. Böylece diller arası çeviri, makine-insan iletişimi, konuşma analizi ve türetimi gibi konuların kolayca yapılması hedeflenmektedir. DDİ genel olarak dört ana bölümden oluşur: sesbilim, biçimbilim, sentaks ve anlam bilim. Her bölümün sonunda elde edilen sonuçlar bir sonraki incelemenin giriş verileri olacaktır. Bu nedenle, biçimbilimsel çözümleyiciler, birçok DDİ uygulaması için ana bileşenlerden biri olma özelliğini gösterirler. Biçimbilimsel çözümleme, cümledeki sözcüklerin kök ve eklerinin ayrıştırılması, bunların incelenmesi ve görevlerinin belirlenmesi olarak tanımlanabilir. Yani dildeki morfemler üzerinde çalışarak, bu morfemlerin nasıl birleşerek sözcükleri oluşturduğunu inceler. Biçimbilimsel çözümleme sayesinde sözcüklerin türleri, sözcüğün ekleri ve bu eklerin türleri araştırılır. Bu çalışmada, Türkçe için geliştirilen biçimbilimsel çözümleyiciler ayrıntılı bir biçimde incelenmiş ve bu inceleme sonucunda var olan biçimbilimsel çözümleyicilerin eksik olan yönleri bulunmuştur. İncelenen sistemlerin eksik yanları da göz önünde bulundurularak bilimsel çalışmalarda kullanılmak üzere bir biçimbilimsel çözümleyici tasarlanmıştır. Geliştirilen biçimbirimsel çözümleyicide yapılan başlıca iyileştirmeler şunlardır: yapım eki almış sözcüklerin sonucunun sadeleştirilmesi, ekfiillerin biçimbirimsel analizinin tam olarak yapılması, sayısal değer içeren tarih, saat gibi sözcüklerin çözümlenmesi, kısaltma ve özel isimler için sonuç üretme ve ekler için değiştirilebilir özellikle Türk kullanıcılar için Türkçe etiketleme. Bunun yanında çözümleme yapılmak istenen metni analiz yapılır biçime getiren metin parçalayıcı, diğer çözümleyiciler ile karşılaştırma yapabilmeyi sağlayan karşılaştırma ve kelimeleri ek dizisinden üreten kelime türetim modülleri ile farklı özellikler katılmıştır.
Natural language processing (NLP) is a sub-branch of artificial intelligence and linguistics, aims to understand natural language by analyzing. Thus, NLP can be used to translate between languages, communicate machine with human and analyze speech. Usually NLP consists of four main sections: phonology, morphology, syntax, semantics. Result of the each section is the input data of following section. Morphology is the identification, analysis and description of the structure of words. So, by working on language morpheme, morphology will review how the morphemes create the words via connecting. The family of word, affixes of word and type of these affixes are determined through morphological analysis. In this study, existing Turkish morphological analyzers have been examined as detailed and these analyzers’ missing features were found. This morphological analyzer is developed as open source application to use in scientific studies. Morphological analyzer has major has following improvements: simplificate the result of constructed words with suffixes, morphemic analyze of the copulative verb to be when suffixed to a predicate noun or adjective exactly, analysis of words including numeric values such as date and time, produce results for abbreviations and proper names. Also the morphological analyzer has a configurable labeling system, especially Turkish labeling for Turkish users. In addition, analyzer has diffent properties such as string tokenizer, comparison tool with other analyzers and word generation from stem and suffix array.
Natural language processing (NLP) is a sub-branch of artificial intelligence and linguistics, aims to understand natural language by analyzing. Thus, NLP can be used to translate between languages, communicate machine with human and analyze speech. Usually NLP consists of four main sections: phonology, morphology, syntax, semantics. Result of the each section is the input data of following section. Morphology is the identification, analysis and description of the structure of words. So, by working on language morpheme, morphology will review how the morphemes create the words via connecting. The family of word, affixes of word and type of these affixes are determined through morphological analysis. In this study, existing Turkish morphological analyzers have been examined as detailed and these analyzers’ missing features were found. This morphological analyzer is developed as open source application to use in scientific studies. Morphological analyzer has major has following improvements: simplificate the result of constructed words with suffixes, morphemic analyze of the copulative verb to be when suffixed to a predicate noun or adjective exactly, analysis of words including numeric values such as date and time, produce results for abbreviations and proper names. Also the morphological analyzer has a configurable labeling system, especially Turkish labeling for Turkish users. In addition, analyzer has diffent properties such as string tokenizer, comparison tool with other analyzers and word generation from stem and suffix array.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2009
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2009
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2009
Konusu
Biçimbilimsel çözümleyici, doğal dil işleme, morphological analysis, naatural language processing
