Bilgi Erişiminde Tamlama Temelli Dizinleme

thumbnail.default.alt
Tarih
Yazarlar
Türkeeş, Mehmet Kıvanç
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu tez kapsamında, Türkçe için doğal dil işleme destekli bir bilgi erişim sistemi tasarımı yapılmıştır. Bu bilgi erişim sistemi, Türkçe’nin özelliklerini ve yapısını göz önüne alarak, bilgi erişimindeki başarımı arttırmayı amaçlamaktadır. Tasarlanmış olan bu sistemde Türkçenin biçimsel ve sözdizimsel farklılıkları ele alınmış ve bu farklılıkların giderilmesinin bilgi erişimi üzerindeki etkileri irdelenmiştir. Birimsel farklılıklar biçimbirimsel çözümlemeye dayanan gövdeleme, sözdizimsel farklılıklar ise tamlama analizi ile giderilmeye çalışılmıştır. Tamlama analizinde hem istatistiksel hem de dilbilimsel yaklaşımlar incelenmiş ve dilbilimsel tamlama analizi gerçeklenmiştir. İstatistiksel yaklaşımda, birbirini belirli sıklıklarla izleyen ve belge genelinde sıkça geçen sözcük öbekleri tamlama olarak kabul edilmiş, dilbilimsel yaklaşımda ise isim ve sıfat tamlamaları bulunmaya çalışılmıştır. İstatistiksel yaklaşımda sözcükler arasındaki yakınlık ve sıklık ilişkileri üzerinde durulurken dilbilimsel yaklaşımda biçimbirimsel çözümleme de kullanılarak sözcük türleri ve sözcüklere gelen tamlama ekleri incelenip Türkçedeki isim ve sıfat tamlamaları sonlu durum makineleri ve düzenli ifadeler olarak temsil edilmiştir. Tamlama analizi ile bulunan tamlamalar tek sözcüklerle beraber belgeleri temsil etmek için kullanılarak tamlama bazlı dizinleme gerçeklenmiştir. Ayrıca sözcük bazlı dizinleme ile tamlama bazlı dizinleme karşılaştırılarak bilgi erişimi ve başarımı üzerine etkileri araştırılmıştır.
In this study, an Information Retrieval system supported by Natural Language Processing for Turkish is designed. This IR system aims at increasing performance in IR by considering features and structure of Turkish language. Designed IR system deals with morphological and syntactical variations of Turkish and studies of the effects on overcoming these variations on IR. Morphological variations are handled with stemming based on morphological analysis and syntactical variations with phrase analysis. For phrase analysis, both statistical and linguistic approaches are studied and linguistical phrase analysis is implemented. In statistical approach, words which follow each other and are frequently repeated in a document are considered as a phrase and terms of proximity and frequency for words are studied. In linguistic approach, noun and adjective phrases are analized. The type and suffix information for words are studied to find noun and adjective phrases in Turkish. Finite state machines and regular expressions are formed for the analysis of linguistic phrases. Phrases, which are determined by phrase analysis, are used for representing documents instead of single words. Phrase based indexing is implemented for this purpose. Comparison between phrase based indexing and term based indexing is done and their effect on IR are studied.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2007
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2007
Anahtar kelimeler
Bilgi Erişimi, Bilgi Erişim Sistemi, Doğal Dil İşleme, Dizinleme, Tamlama Temelli Dizinleme, Information Retrieval, Information Retrieval System, Natural Language Processing, Indexing, Phrase Based Indexing
Alıntı