Building of Turkish propbank and semantic role labeling of Turkish

thumbnail.default.placeholder
Tarih
2018-01-16
Yazarlar
Şahin, Gizem Gül
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science And Technology
Fen Bilimleri Enstitüsü
Özet
Understanding a human language has been a dream of manhood for more than a decade. Although early science fiction movies have predicted that dream would have come true by now, it has not. The reasons are varied however ambiguity, the need for context, common sense knowledge, the variety in word/sentence structures can be considered as such. There have been attempts to disambiguate word meanings, analyze language structures, and model common sense knowledge to reach this goal, however, it is ongoing research with many subfields. In this thesis, we are interested in one of its subfields: shallow semantic parsing or semantic role labeling (SRL). It aims to dissolve the understanding problem into identifying action/event-bearing units and their participants. In that way, independent from the structure of the sentence, the same representation can be produced, (e.g. "Economy grew by 5%" and "The growth of the economy was 5%" or "The window broke" and "Stone broke the window"). The output representations of this task can benefit other natural language understanding tasks such as information retrieval, sentiment analysis, question answering, and textual entailment. In order to perform this task a resource that contains the meanings of action/event bearing units (in our case verbs) and their frequent participants, named Proposition Bank (PropBank), should be created to guide the machine learning techniques. Unfortunately creating such a resource requires a large amount of time, budget, and linguistic experts. Therefore has not seen possible for low-resourceful languages like Turkish. In this thesis, we aim to address this issue by incorporating crowd intelligence into the construction workflow. We design a novel workflow that requires a minimum number of experts with linguistic knowledge. They have been employed for (1) the first crucial step, where semantic frames are manually created, (2) supply quality control mechanism by labeling a small number of questions, and (3) double-check the answers of crowd taskers when taskers could not agree on an answer. Other challenges to creating such a resource are posed by the rich morphology of Turkish. To address this extreme production of new words that cause a theoretically infinite number of action-bearing units, we propose to exploit the semantic knowledge that is acquired by root verbs composed with regular morphosemantic features such as case markers. We evaluate our overall approach for the building of Turkish PropBank by various inter-annotator metrics and show that our resource is of high quality. Though creating a resource is crucial, not enough for automatic labeling of semantic roles. The second part of this thesis focuses on building such automatic methods that are suitable for the Turkish language. For that purpose, we adopt a system that uses a deterministic machine learning model based on linguistic features designed mostly for high-resource, morphologically poor languages. However, the Turkish language poses the following challenges: (1) a significant amount of out of vocabulary words (words that have not been seen in the dictionary) (2) the small number of training instances, and (3) high syntactic variance among predicates and their arguments. These issues cause very sparse features that complicate the learning process of the statistical system. We address these challenges by (1) designing better features that exploit the regularity of morphosemantics, thus not as sparse as previous ones; and (2) taking advantage of pretraining on unlabeled data, in other words, exploiting prior knowledge on Turkish words that have been learned through word embeddings. We show that our approach yields to the first robust Turkish SRL system with an F1 score of 79.84. Our experiments with training data size and the features show that (1) morphosemantic features are vital for Turkish SRL; (2) a reasonable SRL system can be trained with proposed features on 60% of the available data; (3) performance greatly degrades in the absence of high-level syntactic features and (4) continuous features model complex interactions between information levels and lead to further improvement in the scores. Although the statistical SRL system has been shown to be successful in the presence of gold tags, it suffers from accumulating errors of external NLP tools that are required for feature extraction. To address this problem, we introduce a neural SRL system that employs bi-directional long-short-term-memory (LSTM) units to operate on subword units that do not require syntactic preprocessing (or only minimal). Unlike previous techniques that use pre-trained word embeddings, the proposed model generates a word embedding by composing the subword units. Available subword composition techniques did not make any distinctions between morphology types. In order to distinguish derivational morphology from inflectional morphology, we propose a linguistically motivated composition technique and systematically analyze the effect of subword and composition types. We show that (1) character-based models with bi-LSTM composition perform similar to models that use morphological information for languages with poor morphology, whereas at least 3 percentage point drop is observed on F1 scores for morphologically rich languages and (2) linguistically motivated composition method surpasses other techniques for Turkish SRL. We evaluate various techniques to combine multiple subword units in order to test whether subwords learn complementary features for argument labeling. We show that character and char-trigram combination improve the scores in all cases, whereas combining character with morphology does not help most languages with rich morphology, suggesting that characters do not capture any information that is not already embedded in morphological models. Finally, all resources are made accessible to encourage researchers to work on the Turkish language.
Doğal dili anlamak, uzun süredir insanlığın hayallerini süslemektedir. Eski bilim kurgu filmleri, bu rüyanın şimdiye kadar gerçekleşmiş olacağını öngörse de, henüz gerçeklememiştir. Doğal dili anlamanın halen çözülememiş sorunlar arasında olmasının temel nedenlerini şu şekilde sıralayabiliriz: dildeki belirsizlikler, bağlamdan kaynaklanan sorunlar, gerçek dünya ve sağduyu bilgisinin gerekliliği, sözcük ve tümce yapılarındaki farklılık. Dolayısıyla doğal dili anlama çalışmaları, bu sorunları çözmeyi amaçlayan ayrı araştırmalarla devam etmektedir. Bu tez çalışmasında yüzeysel anlam ayrıştırıcı ya da diğer adıyla anlamsal görev çözümlemesine (AGÇ) odaklanılmıştır. AGÇ, doğal dili anlama işini, tümcelerden eylem içeren birimlerin ve bunların ögelerinin çıkarılmasına indirgemektedir. Böylece tümcenin yapısından bağımsız olarak, farklı yapılardaki tümceler için aynı anlamsal gösterim biçimi elde edilecektir. Örneğin Ekonomi %5 oranında büyümüştür ve Ekonomideki büyüme %5'tir veya Cam taşla kırıldı ve Taş camı kırdı tümcelerinin anlamsal gösterim biçimleri aynı olacaktır. Anlamsal görev çözümlemesinin çıktıları, makine çevirisi, otomatik soru yanıtlama ve duygu analizi gibi değişik doğal dil işleme alanlarına girdi olarak verildiğinde sonuçları iyileştirildiği gözlemlenmiştir. Anlamsal görev çözümlemesini gerçekleyebilmek için, makine öğrenme yöntemlerini yönlendirmek üzere eylem içeren birimlerin (Türkçe için yüklemlerin) anlamlarını ve ögelerini içeren bir kaynak, diğer bir deyişle veri tabanı, gerekmektedir. Bu veri tabanına yayınlarda Önerme Veri Tabanı ya da PropBank adı verilmektedir. Böyle bir veri tabanı oluşturmak uzun zaman, büyük bütçe ve çok sayıda dil uzmanı gerektirmektedir. Bu nedenle Türkçe için önerme veri tabanları henüz oluşturulmamıştır. Bu tezde, yukarıda bahsedilen sorun, topluluk bilgisini önerme veri tabanının oluşturulması sürecine katılarak çözülmüştür. Uzman sayısını en az olacak şekilde tasarımı yapılan yeni iş modeli, uzmanlardan yalnızca şu durumlarda yararlanmaktadır: (1) Önerme Veri Tabanının ilk ve önemli adımı olan anlamsal görev çerçevelerinin oluşturulması, (2) kalite kontrol sürecinde belli miktarda soru ve yanıtın elle işaretleme ve (3) işaretleyicilerin üzerinde anlaşamadıkları yanıtların doğru olanlarına karar verme aşamasında. Önerme Veri Tabanının oluşturulmasında karşılaşılan diğer bir zorluk ise Türkçenin eklemeli dil olması, Türkçedeki eklerin çok sayıda olması ve Türkçe sözcüklerin peş peşe çok sayıda ek alması dolayısıyla, Türkçenin kuramsal olarak sonsuz sayıda eylem içeren sözcük üretebilmesidir. Bunun için tüm eylem içeren türetilmiş sözcüklerin, kök çerçevesi kullanılarak karşılanmasına karar verilmiştir. Bu yaklaşımla etiketlenen Önerme Veri Tabanının yüksek nitelikli olduğu çeşitli işaretleyici uzlaşması ölçme yöntemleri kullanılarak kanıtlanmıştır. Bu tezin ikinci bölümünde, Türkçe AGÇ'ye uygun makine öğrenme yöntemlerinin geliştirilmesi üzerinde durulmuştur. Bu amaçla sonucu kesin (deterministik) bir makine öğrenme modeli olan lojistik regresyon sınıflandırıcısı kullanılmıştır. İlk olarak, diğer dillerin anlamsal görev çözümlenmesi için tasarlanmış öznitelikler kullanılmış, fakat başarımlarının yetersiz olduğu gözlemlenmiştir. Bunun nedenleri şöyle açıklanabilir: (1) derlem dışı sözcüklerin çokluğu (2) eğitim kümesinin küçük olması, (3) eylem ve ögelerinin sözdizimsel farklılıklarının yüksek olması. Bu özellikler, çıkarılan özniteliklerin seyrek olması nedeniyle istatistiksel sistemin anlamsal görevler hakkındaki kalıpları öğrenememesine neden olmaktadır. Bu sorunları azaltmak amacıyla, (1) Türkçe diline daha uygun olan biçim bilimine dayalı öznitelikler (özellikle adın durumları), (2) büyük etiketsiz veri kümesinde eğitilmiş sözcük vektörlerine dayalı öznitelikler kullanılmış ve bu özniteliklerin AGÇ'nin başarımını artırdığı gözlemlenmiştir. Böylece ilk yüksek başarımlı (79.84 F1 puanlı) Türkçe AGÇ sistemi geliştirilmiştir. Deneylerimiz (1) biçim anlamsal özniteliklerin Türkçe AGÇ için önemini; (2) tasarlanan sistemin eğitim verisinin yalnızca %60'ını kullanarak, anlamlı sonuçlar üretilebileceğini; (3) bağlılık ağacı ve söz dizimsel sınıf bilgisine dayalı özniteliklerin yokluğunda performansın azımsanmayacak şekilde düştüğünü ve (4) sürekli özniteliklerin bilgi seviyeleri arasındaki etkileşimi modelleyerek başarıyı artırdığını göstermiştir. İstatistiksel sistemin, sözcüklerin gerçek etiketlerinin bilindiği durumda başarılı olduğu gösterilmişse de, bu etiketlerin bilinmediği durumda peş peşe kullanılan doğal dil araçlarının her birinden kaynaklanan hataların birikmesi dolayısıyla performansı düşmektedir. Bu nedenle, araçlara en az düzeyde ihtiyaç duyan, çift yönlü LSTM birimlerinin alt sözcükleri işlemesine dayanan bir yapay sinir ağı yöntemi önerilmiştir. Eğitilmiş sözcük vektörleri kullanan önceki yöntemlerin tersine, önerilen yöntem alt sözcükleri çeşitli fonksiyonlarla birleştirerek sözcük vektörü yaratmaktadır. Varolan birleştirme yöntemleri biçimbirimsel farklılıkları göz önüne almamaktadır. Bu nedenle yapım ve çekim eklerinin ayrı ayrı birleştirildiği farklı bir yöntem sunulmuştur. Alt sözcük birimleri ve birleştirme fonksiyonları sistematik olarak analiz edilerek, etkileri ölçülmüştür. (1) Yalnızca karakter bilgisi kullanan modellerin, zayıf üretme yetenekli diller için biçimbirimsel bilgi kullanan modellerle benzer sonuçlar verdiği fakat üretim bakımından zengin dillerde biçimbirimsel bilginin başarımı en az yüzde 3 puan artırdığı (2) önerilen birleştirme yönteminin öncekilerden daha başarılı olduğu gösterilmiştir. Alt sözcüklerin AGÇ için tamamlayıcı özellikler öğrenip öğrenmediğinin sınanması için birden çok alt sözcük tipi çeşitli tekniklerle birleştirilmiştir. Karakter ve karakter üçlülerinin birleştirilmesinin her durumda başarımı artırdığı gözlemlenmiş, fakat biçimbirimsel bilginin karakterle birleştirilmesinin, üretken diller birçok dile yardımcı olmadığı görülmüştür. Bu bulgu, karakter modellerinin, söz konusu diller için, zaten biçimbirimsel modellerde olmayan herhangi bir bilgiyi yakalayamadığını düşündürmektedir. Son olarak, araştırmacıların Türkçe dili üzerinde çalışmasını özendirmek amacıyla tüm kaynaklar erişilir biçimde tüm araştırmacılara sunulmuştur.
Açıklama
Theses (Ph.D.) -- İstanbul Technical University, Institute of Science and Technology, 2018
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2018
Anahtar kelimeler
Semantics ,Linguistics , Artificial neural networks , Artificial intelligence, Anlam bilim , Dilbilim, Yapay sinir ağları , Yapay zeka
Alıntı