Türkçe Cümlelerde İsim Tamlamalarının Bulunması

dc.contributor.advisor Tantuğ, Ahmet Cüneyd tr_TR
dc.contributor.author Adalı, Kübra tr_TR
dc.contributor.authorID 10044320 tr_TR
dc.contributor.department Bilgisayar Mühendisliği tr_TR
dc.contributor.department Computer Engineering en_US
dc.date 2014 tr_TR
dc.date.accessioned 2017-02-07T14:41:28Z
dc.date.available 2017-02-07T14:41:28Z
dc.date.issued 2014-07-21 tr_TR
dc.description Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014 tr_TR
dc.description Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2014 en_US
dc.description.abstract TÜRKÇE CÜMLELERDE İSİM TAMLAMALARININ BULUNMASI ÖZET Bu tezde Türkçe cümlelerde bulunan isim tamlamalarının sınırlarının tesbit edilmesi amaçlanmıştır. Türkçe cümlelerin içerisindeki isim tamlamarının bulunması varlık ismi tanıma, Türkçe cümlelerin ayrıştırılması, cümle anlam analizi, metin madenciliği, bilgi çıkarımı ve cümlenin bağlılık analizi vb. çalışmalara da destek verebilecek veya temek oluşturabilecek bir bölümü kapsamaktadır. Bu nedenle kullanım amacı kendi işlevinin yanında başka doğal dil işleme araçlarına da destek olabilecek bir çalışmadır.  Sistemin yapısı, temel olarak bir kural tabanlı sistem ve bir ardışık sınıflandırıcı tipi olan Koşullu Rastgele Alanlar kullanılmasına dayanmaktadır. Sistem, esas olarak bir makine öğrenmesi tekniği kullandığından dolayı ilk önce en iyi sonuçları verebilecek bir makine öğrenmesi modeli amaçlanmıştır.  Bu amaçla ilk önce test verisi belirlendikten sonra, geriye kalan verinin içerisinden en iyi sonuç verebilecek eğitim verisi seçilmiştir. Eğitim verisi oluşturulurken alışılagelmiş yöntemlerin aksine Türkçe-İngilize paralel bir derlemin kullanılmasıyla oluşturulmuştur. Paralel derlemin İngilizce tarafı bir doğal dil işleme aracı kullanılarak ayrıştırılmış, ve paralel derlem başka bir doğal dil işleme aracı kullanılarak eşleştirilmiştir.  Daha sonra ayrıştırılmış İngilizce tamlamalarının eşleştirme sonucunda Türkçe cümlelerdeki karşılıkları bulunarak içerisinde isim tamlamalarının sımırlarının belirlendiği bir eğitim verisi oluşturulmuştur. Bu oluşturulan eğitim verisinin içerisinden çeşitli parametreler kullanılarak en iyi sonuç veren cümleler seçilmiş, ve model optimize edilmiştir. Sonuç olarak isim tamlamalarının çıkarılması amacının ilk olarak kural tabanlı bir sistem ve ardından ardışık bir sınıflandırıcı kullanlarak yapılmış ve bu ardışık sınıflandırıcının da eğitim verisinin otomatik olarak üretilmesi sağlanmıştır. Aldığımız sonuçlar ise kural tabanlı sistemden daha iyi sonuç vermektedir . tr_TR
dc.description.abstract NOUN PHRASE CHUNKING OF TURKISH SENTENCES SUMMARY In this thesis, the detection of the bounds of the noun phrases that exists in Turkish sentences is aimed. The chunking of the noun phrases in Turkish sentences is a work which supports and/or can be a baseline system for the works of named entity recognition, parsing of Turkish sentences, sentiment analysis, text mining, information extraction, dependency parsing etc. For this reason, additional to its own purpose of usage, it is a work that helps the other natural language processing systems. The architecture of the system depends on firstly a rule-based system as a baseline system and Conditional Random Fields which is type of a sequence classifier. Because of the usage of a machine learning system, it is aimed optimize a machine learning model that gives the best results for noun phrase chunking.  With this aim, after the test set is isolated from the corpus, the sentences of the train data set which gives the best results is selected from the rest of the corpus. Instead of conventional manual annotation of training data, an automatic system which needs a Turkish – English parallel corpus is used for producing annotated data for training set. The English side of parallel corpus is parsed and annotated NP chunks by an Englisg parsing tool and the parallel corpus is aligned word-by-word by also an NLP tool. After that, the chunked noun phrases on the English side which are aligned to Turkish sentences are found in Turkish sentences and annotated as noun phrase chunks. The annotataed sentences which gives the best results are selected by using different parameters, used as train set and our model is optimized with this automatically annotated train set. As s result, the purpose of noun phrase chunking is done by using a sequence classifier additional to a rule-based system and the automatic production of annotated sentences for the train set is provided. The results that we obtain from the second system is much better than the first rule-based system. en_US
dc.description.degree Yüksek Lisans tr_TR
dc.description.degree M.Sc. en_US
dc.identifier.uri http://hdl.handle.net/11527/12982
dc.publisher Fen Bilimleri Enstitüsü tr_TR
dc.publisher Instıtute of Science and Technology en_US
dc.rights İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır. tr_TR
dc.rights İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. en_US
dc.subject Doğal Dil İşleme tr_TR
dc.subject İsim Tamlamaları tr_TR
dc.subject Cümle Ayrıştırılması tr_TR
dc.subject Makine Öğrenmesi tr_TR
dc.subject Koşullu Rastgele Alanlar tr_TR
dc.subject Paralel Derlem tr_TR
dc.subject Natural Language Processing en_US
dc.subject Noun Phrases en_US
dc.subject Shallow Parsing en_US
dc.subject Machine Learning en_US
dc.subject Conditional Random Fields en_US
dc.subject Paralel Corpus. en_US
dc.title Türkçe Cümlelerde İsim Tamlamalarının Bulunması tr_TR
dc.title.alternative Noun Phrase Chunking Of Turkish Sentences en_US
dc.type Master Thesis en_US
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.alt
Ad:
10044320.pdf
Boyut:
1.38 MB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
3.16 KB
Format:
Plain Text
Açıklama