Türkçe İçin Metin Özetleme

thumbnail.default.alt
Tarih
Yazarlar
Tülek, Mesut
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bilgi erişimi genel şekliyle, depolanmış bilgi derleminden belirli bilgi gereksinimiyle ilgili bölümlere erişim yöntemine yönelik çalışma olarak tanımlanabilir. Bilgi erişiminin altkümelerinden biri olan metin özetleme, bir belgeyi girdi olarak alan ve çıktı olarak daha kısa, aslının yerine geçen ve onun en önemli içeriğini barındıran bir süreç olarak tanımlanabilir. Yüksek verimlilik, yüksek başarım ve düşük uygulama maliyeti bugünkü araştırmalarda ve pratik uygulamalarda genellikle istatistiksel yöntemlerin kullanılmasının sebebidir. Türkçe, sondan eklemeli ve kurallı yapısı, çok az miktarda kuralsız sözcük içermesi nedeniyle bilgi erişimi araştırmacılarının ilgisini çekmiştir. Türkçenin bu özellikleri, Türkçe için yapılan tüm bilgi erişimi sistemlerinde gövdeleme işlemine önem kazandırmıştır. Bu tezde, Türkçe için farklı metin özetleme yöntemleri tanıtılıp uygulanmıştır. Diğer tüm Türkçe bilgi erişimi sistemlerinde de gerekli olduğu gibi, Türkçenin sondan eklemeli yapısının gözetilmesi amacıyla farklı gövdeleme algoritmalarının özetleme başarımına etkisi incelenmiştir. Başarımlarının daha yüksek olması amacıyla, gerçeklenen gövdeleme algoritmalarında sözcüklerin olası kök ve ek birleşimlerini üreten biçimbirimsel çözümleyici kullanılmıştır. Gövdelenmiş bu sözcükler farklı özetleme yöntemleri aracılığıyla incelenip her yöntem için özette yer alacak cümleler belirlenmiştir. Daha sonra bu yöntemlerin ürettiği sonuçlar birleştirilerek son özet oluşturulmuştur.
Information retrieval can be broadly defined as the study of how to determine and retrieve the portions, which are relevant to particular information needs, from a corpus of stored information. One of the subsets of information retrieval is text summarization. Text summarization can be defined as the process which takes a document as input and outputs a shorter document which is condensed and can be used instead of the original. Today’s researches and practical applications about text summarization mostly use the early statistical methods because of high efficiency, high performance and low application cost of these approaches. In this study, different statistical methods for text summarization are described and developed for Turkish. The effect of different stemming algorithms on summarization efficiency has been studied for the aim of taking into consideration the agglutinative structure of Turkish, as it is necessary in all other information retrieval systems for this language. Morphological analyzer, which outputs the root and affix combinations of the input word, has been used in stemming algorithms to increase the efficiency of the text summarization. These stemmed words have been studied by different summarization methods and sentences which will be included in the summary have been chosen. In the end, the final summary has been created by combining the results of these methods.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2007
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2007
Anahtar kelimeler
Bilgi Erişimi, Metin Özetleme, Gövdeleme, Information Retrieval, Text Summarization, Stemming
Alıntı