Türkçe Metinler İçin Konu Belirleme Sistemi

dc.contributor.advisor Adalı, Eşref tr_TR
dc.contributor.author Kesgin, Fatih tr_TR
dc.contributor.department Bilgisayar Mühendisliği tr_TR
dc.contributor.department Computer Engineering en_US
dc.date 2007 tr_TR
dc.date.accessioned 2015-04-07T13:59:20Z
dc.date.available 2015-04-07T13:59:20Z
dc.description Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2007 tr_TR
dc.description Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2007 en_US
dc.description.abstract Bilgi erişimi (BE), bilginin temsil edilmesi, saklanması, düzenlenmesi ve gerektiği zamanda erişilebilmesini mümkün hale getirmek için yöntemlerin geliştirildiği araştırma konusudur. Genel Ağ’ın (İnternet) yaygınlaşması ile sayısal olarak saklanan ve erişilmek istenen belgelerin sayısı her geçen gün artmaktadır. Bu durum, Bilgi Erişimi’ni günümüzde en çok ilgilenilen ve araştırılan konulardan biri haline getirmiştir. Metin işleme BE uygulamaları arasında önemli bir yer tutmaktadır. Metin işleme uygulamalarının bir alt kümesi olan Metin Sınıflandırma doğal dil ile yazılmış metinlerinin içeriklerine göre ilgili kanallara yönlendirilmesi, e-posta iletilerinin önemli önemsiz olarak ayrıştırılması, ya da metinlerin konularının belirlenmesi gibi alanlarda uygulanmaktadır. Doğal Dil İşleme, sözlü veya yazılı dili incelemek üzere, yazılım ya da donanım olarak bilgisayar sistemleri geliştirilmesi işlemini açıklayan bir terimdir. Bilgi Erişimi alanında ele alınan metinler doğal dil ile yazılmış olduğundan, Bilgi Erişimi sistemlerinin başarımını artırmak için Doğal Dil İşleme yöntemlerinden yararlanılması gerekmektedir. Türkçede köke yapım eki getirilerek oluşturulan yeni kelimeye gövde, bir kelimeye eklenmiş olan çekim eklerinin çıkarılması ile kelimenin gövdesinin bulunması işlemine ise Gövdeleme denilmektedir. Türkçe gibi sondan eklemeli dillerde ise gövdeleme başarımı yüksek oranda etkileyen aşamalardan biri olmaktadır. Metin sınıflandırma, yazılı belgelerin içeriklerine bağlı olarak belirli sınıflara atanması işlemine verilen isimdir. Metin sınıflandırma işlemine örnek olarak bir kaynaktan gelen haberlerin konularına göre ayrıştırılması işlemi verilebilir. Bu tezde, Türkçenin belirtilen özellikleri göz önüne alınarak, Türkçe bir metnin konusunun belirlenmesine yönelik algoritmalar gerçeklenen yazılımlarla birlikte tanıtılmıştır. Yapılan çalışmada, Bilgi Erişimi için gerekli olan ön çalışmalardan biri olan sözcüklerin yapım eklerinin korunarak çekim eklerinin atılması anlamına gelen gövdeleme işlemi için kullanılabilecek yöntemler karşılaştırılarak incelenmiş ve uygulanmıştır. Ön işlemlerden geçmiş olan metnin sınıflandırılması için gerekli sınıflandırma algoritmaları da incelenmiş ve uygulanmıştır. tr_TR
dc.description.abstract Information Retrieval (IR) is the research subject that deals with the representation, storage, organization and retrieval of information. With the increasing number of documents available online, information retrieval is becoming more needed and important. Text processing is one of the main subjects in IR. Text Classification, which is a subset of text processing, has many applications such as routing, spam e-mail detection or detecting topics of texts. Natural Language Processing (NLP) is described as developing hardware or software systems in order to analyze spoken or written natural language. In the subject of text processing, since many texts are in natural laguage, NLP is used in order to improve performance. Turkish is a agglutinative language and every word in Turkish has a root and affixes which are added do the root. Stem is used to describe a word that is derived from a root with a derivational affix. Stemming is the process of removing inflectional affixes while keeping derivational ones. In agglutinative languages like Turkish, stemming is a very important proccess that mostly affects the overall performance. Text classification is the process of assigning a document into one or more classes with respect to its content. A system that classifies news texts with respect to their topics can be considered as a text classification system. In this study, a text classification system for Turkish is explained incuding developed algorithms and software. Stemming algorithms, and text classification methods are researched, compared and implemented. en_US
dc.description.degree Yüksek Lisans tr_TR
dc.description.degree M.Sc. en_US
dc.identifier.uri http://hdl.handle.net/11527/278
dc.publisher Fen Bilimleri Enstitüsü tr_TR
dc.publisher Institute of Science and Technology en_US
dc.rights İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır. tr_TR
dc.rights İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. en_US
dc.subject bilgi erişimi tr_TR
dc.subject doğal dil işleme tr_TR
dc.subject metin sınıflandırma tr_TR
dc.subject gövdeleme tr_TR
dc.subject information retrieval en_US
dc.subject natural language processing en_US
dc.subject text categorization en_US
dc.subject stemming en_US
dc.title Türkçe Metinler İçin Konu Belirleme Sistemi tr_TR
dc.title.alternative Topic Detection System For Turkish Texts en_US
dc.type Master Thesis en_US
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.alt
Ad:
4627.pdf
Boyut:
698.8 KB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
3.14 KB
Format:
Plain Text
Açıklama