İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

thumbnail.default.alt
Tarih
2015
Yazarlar
Şeker, Gökhan Akın
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Adlandırılmış Varlık Tespiti (NER – Named Entity Recognition) en basit şekilde; metin içinden ilgilenilen varlık türlerine ait sözcük adlarının belirlenip bunlara doğru sınıf etiketlerinin atanması olarak tanımlanabilir. Literatürde üzerinde en çok çalışılan türler MUC-6 konferansındaki ortak görevle tanımlanan ENAMEX (kişi, yer, kurum adları) tipleridir. Aynı görevde tanımlanan diğer tipler olan TIMEX (tarih ve saat ifadeleri) ve NUMEX (yüzde ve parasal ifadeler) tipleri de diğer yaygın çalışılan sınıflar olarak karşımıza çıkmakla birlikte aranacak varlık türleri için herhangi bir sınırlama yoktur, protein adları, gen adları, ilaç adları gibi çok çok farklı alanlarda çalışmalara da rastlanabilmektedir. Bu çalışma temel olarak üç aşamada yürütülmüştür. Birinci aşamada ENAMEX türleri üzerinde resmi dille yazılmış metinlerde çalışan bir sistem ortaya konmuş mevcut Türkçe NER sistemleri arasında en yüksek başarım raporlanmıştır; ikinci aşamada bu sisteme TIMEX ve NUMEX türleri eklenerek üzerinde çalışılan tür sayısı yediye çıkarılmıştır; üçüncü aşamada ise bu sistem günlük konuşma diline yakın olan Web 2.0 metinlerine uyarlanmıştır. Birinci aşamada literatürde mevcut çalışmalar incelenirken neredeyse hemen hemen tüm çalışmaların farklı veri kümeleri üzerinde test edildiği veya değerlendirmede farklı kıstaslar esas alındığı için karşılaştırılabilir olmadığı tespit edilmiş ve geçmiş çalışmalar için değerli sonuçlar ortaya koyduğu düşünülen bir çalışma ile konu üzerindeki önemli geçmiş yayınların detaylı değerlendirmesi yapılmıştır. Çalışma sonucunda ortaya konan model, makine öğrenmesi metodu olarak Şartlı Rastgele Alanlar (CRFs) kullanırken diğer yanda titiz bir çalışma ile derlenen alan atlaslarından (gazetteer) da faydalanıldığı için hibrit bir model olarak nitelenebilir. Bu aşamanın sonunda Türkçe gazete haber metinlerinde MUC kıstaslarıyla %95, CoNLL kıstaslarıyla %92 F-ölçütü başarımı ile literatürdeki en yüksek başarım raporlanmıştır. İkinci aşamada birinci aşamanın çıktısı olan modele TIMEX ve NUMEX türlerini de tespit edebilme yeteneği eklenmiştir. Bu aşamada yapılan temel iş birinci aşamada kullanılan verinin yedi tür için yeniden işaretlenmesi ve yeni eklenen türlerin tanınmasında başarımı artırmak için ilave alan atlasları ve CRFs özellikleri eklenmesidir. Sonuçta yedi tür için de benzer oranda yüksek başarım elde edilmiştir. Üçüncü aşamada resmi dille yazılmış metinlerde çalışan model, serbest biçimli dile uyarlanarak, Web 2.0 verisinde çalışmalar yapılmıştır. Bu aşamada iki ayrı sosyal medya veri kümesi işaretlenmiş ve kuralsız metinlerin kurallı metinlere benzetimini sağlamaya yönelik düzeltme adımları eklenmiştir. Twitter veri kümesi üzerinde %68 ile literatürdeki en yüksek başarım oranlarına ulaşılmıştır. Araç diğer güncel bilimsel çalışmalarda kullanılan veri kümeleri üzerinde de test edilerek sonuçlar karşılaştırmalı olarak verilmiştir. Bu çalışma ile hazırlanan üç adet işaretli veri kümesi ve geniş alan atlasları (kişi ad, kişi soyad, yer adları gibi) bu alanda yapılacak sonraki çalışmalarda faydalanılabilecek önemli kaynaklar olarak araştırmacıların hizmetine açıktır. Modelin kendisi de İTÜ Doğal Dil İşleme Araçları arasında çevrimiçi kullanıma açılmıştır.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2015
Anahtar kelimeler
Yapay zeka, Varlık isimleri, Bilgi çıkarımı
Alıntı