Bilgisayar Mühendisliği-Yüksek Lisans

Bu koleksiyon için kalıcı URI

Gözat

Son Başvurular

Şimdi gösteriliyor 1 - 1 / 1
  • Öge
    Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
    (Lisansüstü Eğitim Enstitüsü, 2021-07-29) Uzun, Ayşenur ; Tantuğ, Ahmet Cüneyd ; 504161504 ; Bilgisayar Mühendisliği ; Computer Engineering
    Yapısal olmayan metinden bilgi çıkarma alanında yapılan çalışmalar, doğal dil işleme alanında önemli bir yere sahiptir. Kelime kökü bulma, kelime sözcük türü etiketleme, kelime bağımlılık yapı ağacı çıkarım gibi yapısal çalışmaların yanı sıra, son senelerde bilgi çıkarım alanında yapılan çalışmalar önem kazanmıştır. Metin içerisinde tespit edilen semantik bilginin, yapısal bir forma normalleştirilmesi, bilginin çeşitli doğal dil işleme çalışmalarında etkili biçimde kullanılabilmesi için önem arz etmektedir. Zamansal ifade işaretleme ve normalizasyon çalışması, bilgi çıkarım sistemleri içerisinde önemli bir yere sahiptir. Metin içerisinde geçen olaylar hakkında zaman, süre, sıklık, aralık gibi bilgi taşıyan ifadelere (ör. bugün, iki ay sonra, 19 Temmuz'da, her hafta) zamansal ifadeler denilmektedir. Zamansal ifadelerin tespit edilmesi ve belirtilen standarda göre normalize edilmesi başta İngilizce, İspanyolca, Almanca, Çince, Arapça gibi dillerde yaygın bir araştırma alanıdır. Literatürde, bu diller için birçok zamansal ifade işaretleme ve normalizasyon sistemleri sunulmuş, manuel veya otomatik yöntemler ile zamansal ifadeleri işaretlenmiş veri setleri yayınlanmıştır. Sunulan bu sistemlerin, veri setleri üzerinde değerlendirilmesi için semantik değerlendirme seminerleri düzenlenmiştir. Bilgimiz dahilinde Türkçe literatüründe, bu zamana kadar herhangi bir zamansal ifadeleri işaretlenmiş, yapısal bir veri bankası yayınlanmamıştır. Ayrıca, baştan sona Türkçe zamansal ifade tespit ve normalizasyon görevlerini gerçekleştiren bir sisteme, literatür incelemelerimiz sırasında rastlanmamıştır. Bu tez çalışmasında, Türkçe zamansal ifade çıkarım ve normalizasyon alanında temel bir çalışma sayılabilecek, ilk uçtan uca ve Türkçe biçimbilimsel yapısının da dahil edildiği, kural tabanlı zamansal ifade etiketleme ve normalizasyon sistemi geliştirilmiştir. Sistemin geliştirilmesi ve test aşamasında kullanılmak üzere, 109 haber metninde yer alan zamansal ifadeler manuel yöntemle işaretlenmiştir. Tez kapsamında geliştirilen bu veri seti, gelecek araştırma çalışmalarında kullanılması amacı ile ortak kullanıma açılmıştır. Geliştirlen bu sistem, yayınlanan test veri seti üzerinde çalıştırılmıştır. Sistemin performansı, zamansal ifade etiketleme çalışmalarında kullanılan doğruluk (precision) ve tutarlılık (recall) formülleri kullanılarak ölçülmüştür. Metin içerisinde geçen zamansal ifadeler %89 F1 skoru başarısı ile tespit edilirken, doğru tespit edilen ifadelerin "type" ve "value" niteliklerinin normalizasyonunda sırasıyla %89 ve %88 F1 başarısı elde edilmiştir. Gelecek çalışmalarda, hata analizi ve sistem kısıtlamaları bölümlerinde bahsedilen eksiklikler ve tavsiyler göz önünde bulundurularak, daha yüksek başarımlı Türkçe zamansal ifade işaretleme ve normalizasyon çalışmaları gerçekleştirilebilir.