Please use this identifier to cite or link to this item: http://hdl.handle.net/11527/297
Title: Bilgi Erişiminde Tamlama Temelli Dizinleme
Other Titles: Phrase Based Indexing In Information Retrieval
Authors: Adalı, Eşref
Türkeeş, Mehmet Kıvanç
Bilgisayar Mühendisliği
Computer Engineering
Keywords: Bilgi Erişimi
Bilgi Erişim Sistemi
Doğal Dil İşleme
Dizinleme
Tamlama Temelli Dizinleme
Information Retrieval
Information Retrieval System
Natural Language Processing
Indexing
Phrase Based Indexing
Publisher: Fen Bilimleri Enstitüsü
Institute of Science and Technology
Abstract: Bu tez kapsamında, Türkçe için doğal dil işleme destekli bir bilgi erişim sistemi tasarımı yapılmıştır. Bu bilgi erişim sistemi, Türkçe’nin özelliklerini ve yapısını göz önüne alarak, bilgi erişimindeki başarımı arttırmayı amaçlamaktadır. Tasarlanmış olan bu sistemde Türkçenin biçimsel ve sözdizimsel farklılıkları ele alınmış ve bu farklılıkların giderilmesinin bilgi erişimi üzerindeki etkileri irdelenmiştir. Birimsel farklılıklar biçimbirimsel çözümlemeye dayanan gövdeleme, sözdizimsel farklılıklar ise tamlama analizi ile giderilmeye çalışılmıştır. Tamlama analizinde hem istatistiksel hem de dilbilimsel yaklaşımlar incelenmiş ve dilbilimsel tamlama analizi gerçeklenmiştir. İstatistiksel yaklaşımda, birbirini belirli sıklıklarla izleyen ve belge genelinde sıkça geçen sözcük öbekleri tamlama olarak kabul edilmiş, dilbilimsel yaklaşımda ise isim ve sıfat tamlamaları bulunmaya çalışılmıştır. İstatistiksel yaklaşımda sözcükler arasındaki yakınlık ve sıklık ilişkileri üzerinde durulurken dilbilimsel yaklaşımda biçimbirimsel çözümleme de kullanılarak sözcük türleri ve sözcüklere gelen tamlama ekleri incelenip Türkçedeki isim ve sıfat tamlamaları sonlu durum makineleri ve düzenli ifadeler olarak temsil edilmiştir. Tamlama analizi ile bulunan tamlamalar tek sözcüklerle beraber belgeleri temsil etmek için kullanılarak tamlama bazlı dizinleme gerçeklenmiştir. Ayrıca sözcük bazlı dizinleme ile tamlama bazlı dizinleme karşılaştırılarak bilgi erişimi ve başarımı üzerine etkileri araştırılmıştır.
In this study, an Information Retrieval system supported by Natural Language Processing for Turkish is designed. This IR system aims at increasing performance in IR by considering features and structure of Turkish language. Designed IR system deals with morphological and syntactical variations of Turkish and studies of the effects on overcoming these variations on IR. Morphological variations are handled with stemming based on morphological analysis and syntactical variations with phrase analysis. For phrase analysis, both statistical and linguistic approaches are studied and linguistical phrase analysis is implemented. In statistical approach, words which follow each other and are frequently repeated in a document are considered as a phrase and terms of proximity and frequency for words are studied. In linguistic approach, noun and adjective phrases are analized. The type and suffix information for words are studied to find noun and adjective phrases in Turkish. Finite state machines and regular expressions are formed for the analysis of linguistic phrases. Phrases, which are determined by phrase analysis, are used for representing documents instead of single words. Phrase based indexing is implemented for this purpose. Comparison between phrase based indexing and term based indexing is done and their effect on IR are studied.
Description: Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2007
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2007
URI: http://hdl.handle.net/11527/297
Appears in Collections:Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans

Files in This Item:
File Description SizeFormat 
7407.pdf479.41 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.