Türkçe Cümlelerde İsim Tamlamalarının Bulunması

Adalı, Kübra

Türkçe Cümlelerde İsim Tamlamalarının Bulunması

dc.contributor.advisor	Tantuğ, Ahmet Cüneyd	tr_TR
dc.contributor.author	Adalı, Kübra	tr_TR
dc.contributor.authorID	10044320	tr_TR
dc.contributor.department	Bilgisayar Mühendisliği	tr_TR
dc.contributor.department	Computer Engineering	en_US
dc.date	2014	tr_TR
dc.date.accessioned	2017-02-07T14:41:28Z
dc.date.available	2017-02-07T14:41:28Z
dc.date.issued	2014-07-21	tr_TR
dc.description	Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014	tr_TR
dc.description	Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2014	en_US
dc.description.abstract	TÜRKÇE CÜMLELERDE İSİM TAMLAMALARININ BULUNMASI ÖZET Bu tezde Türkçe cümlelerde bulunan isim tamlamalarının sınırlarının tesbit edilmesi amaçlanmıştır. Türkçe cümlelerin içerisindeki isim tamlamarının bulunması varlık ismi tanıma, Türkçe cümlelerin ayrıştırılması, cümle anlam analizi, metin madenciliği, bilgi çıkarımı ve cümlenin bağlılık analizi vb. çalışmalara da destek verebilecek veya temek oluşturabilecek bir bölümü kapsamaktadır. Bu nedenle kullanım amacı kendi işlevinin yanında başka doğal dil işleme araçlarına da destek olabilecek bir çalışmadır. Sistemin yapısı, temel olarak bir kural tabanlı sistem ve bir ardışık sınıflandırıcı tipi olan Koşullu Rastgele Alanlar kullanılmasına dayanmaktadır. Sistem, esas olarak bir makine öğrenmesi tekniği kullandığından dolayı ilk önce en iyi sonuçları verebilecek bir makine öğrenmesi modeli amaçlanmıştır. Bu amaçla ilk önce test verisi belirlendikten sonra, geriye kalan verinin içerisinden en iyi sonuç verebilecek eğitim verisi seçilmiştir. Eğitim verisi oluşturulurken alışılagelmiş yöntemlerin aksine Türkçe-İngilize paralel bir derlemin kullanılmasıyla oluşturulmuştur. Paralel derlemin İngilizce tarafı bir doğal dil işleme aracı kullanılarak ayrıştırılmış, ve paralel derlem başka bir doğal dil işleme aracı kullanılarak eşleştirilmiştir. Daha sonra ayrıştırılmış İngilizce tamlamalarının eşleştirme sonucunda Türkçe cümlelerdeki karşılıkları bulunarak içerisinde isim tamlamalarının sımırlarının belirlendiği bir eğitim verisi oluşturulmuştur. Bu oluşturulan eğitim verisinin içerisinden çeşitli parametreler kullanılarak en iyi sonuç veren cümleler seçilmiş, ve model optimize edilmiştir. Sonuç olarak isim tamlamalarının çıkarılması amacının ilk olarak kural tabanlı bir sistem ve ardından ardışık bir sınıflandırıcı kullanlarak yapılmış ve bu ardışık sınıflandırıcının da eğitim verisinin otomatik olarak üretilmesi sağlanmıştır. Aldığımız sonuçlar ise kural tabanlı sistemden daha iyi sonuç vermektedir .	tr_TR
dc.description.abstract	NOUN PHRASE CHUNKING OF TURKISH SENTENCES SUMMARY In this thesis, the detection of the bounds of the noun phrases that exists in Turkish sentences is aimed. The chunking of the noun phrases in Turkish sentences is a work which supports and/or can be a baseline system for the works of named entity recognition, parsing of Turkish sentences, sentiment analysis, text mining, information extraction, dependency parsing etc. For this reason, additional to its own purpose of usage, it is a work that helps the other natural language processing systems. The architecture of the system depends on firstly a rule-based system as a baseline system and Conditional Random Fields which is type of a sequence classifier. Because of the usage of a machine learning system, it is aimed optimize a machine learning model that gives the best results for noun phrase chunking. With this aim, after the test set is isolated from the corpus, the sentences of the train data set which gives the best results is selected from the rest of the corpus. Instead of conventional manual annotation of training data, an automatic system which needs a Turkish – English parallel corpus is used for producing annotated data for training set. The English side of parallel corpus is parsed and annotated NP chunks by an Englisg parsing tool and the parallel corpus is aligned word-by-word by also an NLP tool. After that, the chunked noun phrases on the English side which are aligned to Turkish sentences are found in Turkish sentences and annotated as noun phrase chunks. The annotataed sentences which gives the best results are selected by using different parameters, used as train set and our model is optimized with this automatically annotated train set. As s result, the purpose of noun phrase chunking is done by using a sequence classifier additional to a rule-based system and the automatic production of annotated sentences for the train set is provided. The results that we obtain from the second system is much better than the first rule-based system.	en_US
dc.description.degree	Yüksek Lisans	tr_TR
dc.description.degree	M.Sc.	en_US
dc.identifier.uri	http://hdl.handle.net/11527/12982
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.publisher	Instıtute of Science and Technology	en_US
dc.rights	İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır.	tr_TR
dc.rights	İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission.	en_US
dc.subject	Doğal Dil İşleme	tr_TR
dc.subject	İsim Tamlamaları	tr_TR
dc.subject	Cümle Ayrıştırılması	tr_TR
dc.subject	Makine Öğrenmesi	tr_TR
dc.subject	Koşullu Rastgele Alanlar	tr_TR
dc.subject	Paralel Derlem	tr_TR
dc.subject	Natural Language Processing	en_US
dc.subject	Noun Phrases	en_US
dc.subject	Shallow Parsing	en_US
dc.subject	Machine Learning	en_US
dc.subject	Conditional Random Fields	en_US
dc.subject	Paralel Corpus.	en_US
dc.title	Türkçe Cümlelerde İsim Tamlamalarının Bulunması	tr_TR
dc.title.alternative	Noun Phrase Chunking Of Turkish Sentences	en_US
dc.type	Master Thesis	en_US

Dosyalar

Orijinal seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: 10044320.pdf
Boyut:: 1.38 MB
Format:: Adobe Portable Document Format
Açıklama

İndir

Lisanslı seri

Şimdi gösteriliyor 1 - 1 / 1

Ad:: license.txt
Boyut:: 3.16 KB
Format:: Plain Text
Açıklama

İndir

Koleksiyonlar

FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans