İngilizce'den Türkçe'ye İstatistiksel Bilgisayarlı Çeviri Sistemlerinde Alan Uyarlaması İle Başarının Artırılması

thumbnail.default.placeholder
Tarih
2015-10-22
Yazarlar
Yıldırım, Ezgi
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Doğal dildeki bir metni veya bir konuşmayı diğer bir doğal dile insan gözetimli veya gözetimsiz olarak bilgisayarların yardımıyla çevirme işlemi bilgisayarlı çeviri olarak bilinmektedir. Bilgisayarlı çeviri, doğal dil işlemenin en temel, en etkin ve tarihi en eskiye dayanan alanlarından biridir. 1950'lerde temelleri atılan bilgisayarlı çeviri alanında, önceleri çoğunlukla çeşitli dilbilgisel düzeylerde (biçimbilimsel, sözdizimsel, anlamsal) bilgi aktarımını sağlayan kural tabanlı yöntemler kullanılmıştır. 1990'lardan sonra geliştirilen sistemlerde ve çalışmalarda ise ses tanıma ve işlemede başarısı gözlenen istatistik biliminin desteğine başvurulmuştur. Bilgisayarlı çeviri probleminin çözümünde kültürler arası etileşimin ve erişilebilir dil kaynaklarının artması ile son yirmi yıldır istatistiksel yaklaşımların kullanımı oldukça hız kazanmıştır. Kural tabanlı yöntemlerde gelişmesi sınırlanan bilgisayarlı çeviri çalışmaları bu gelişmeyle yeni bir başlangıç yapmıştır. İstatistiksel yaklaşımlar, çeviri parametrelerini emek yoğun bir iş olan kural tanımlama yerine hizalanmış metinler üzerinden otomatik olarak öğrenirler. Bu alanda bazı diller için çok sayıda başarılı çalışma yapılmasına rağmen Türkçe için yapılan çalışmalar oldukça kısıtlıdır. Bu tez çalışmasında, İngilizce'den Türkçe'ye gelişmiş ve kabul gören bir yöntem olan istatistiksel bilgisayarlı çeviri sisteminde farklı alan uyarlamalarının etkileri incelenmiş ve sonuçları sunulmuştur. Ayrıca buradan elde edilen bilgiler ışığında, farklı alanlara uyum sağlayabilen genel amaçlı bir istatistiksel bilgisayarlı çeviri sisteminin modeli oluşturulmuştur. İngilizce'den Türkçe'ye böyle bir model oluşturmanın pek çok açıdan zorlukları bulunmaktadır. En önemli problem, farklı dil ailelerine mensup bu iki dilin birbirinden oldukça farklı yapısal özelliklere sahip olmasıdır. İngilizce oldukça sınırlı bir biçimbilimsel yapıya sahipken, Türkçe oldukça zengin, üretken, türetimsel ve bükümlü bir biçimbilimsel yapıya sahiptir. Öyle ki, İngilizce'de bir çok sözcükten oluşan bir ifade Türkçe'de tek bir sözcükle rahatlıkla oluşturulabilmektedir. İngilizce özne-yüklem-nesne şeklinde sabit bir bileşen sıralamasına sahipken, Türkçe genellikle özne-nesne-yüklem sırasının tercih edilmesiyle birlikte oldukça esnek bir bileşen sıralamasına sahiptir. Bu çalışma, dil kaynağı bakımından dezavantajlı olan ve zengin biçimbilimsel yapısı nedeniyle de veri seyrekliği probleminden daha şiddetli etkilenen Türkçe için, istatistiksel bilgisayarlı çeviri sistemlerinde başarıyı artırmaya ve daha genel amaçlı, daha başarılı sistemler için bir ön model oluşturmaya odaklanmaktadır. Bununla birlikte, literatürdeki diğer yöntemlerin Türkçe'ye (muhtemelen benzer diğer diller için de) uygulanabilirliğini ve etkilerini açıklayarak öncü olmakta, daha önce Türkçe için incelenmemiş olan ve değerlendirilmesi gereken bu etkili uygulama alanındaki ileri çalışmaların önünü açmaktadır. Bu tez çalışmasında, öncelikle incelenen yöntemlerin kıyaslanabilmesi için bir yalın sistem oluşturulmuştur. Bu yalın sistem, elde edilen tüm alanlardaki veriler kullanılarak tek bir istatistiksel bilgisayarlı çeviri sistemi eğitilerek elde edilmiştir. Alan uyarlaması çalışmalarında ilk olarak, her biri kendi alanına ait verilerle eğitilmiş, dolayısıyla her biri kendi verisinin dahil olduğu alana uyum sağlamış, farklı istatistiksel bilgisayarlı çeviri sistemleri oluşturulmuş ve bir metin sınıflandırıcı ile bu sistemler birleştirilmiştir. Böylece çevrilmesi istenen giriş cümleleri uygun sistemlere yönlendirilmekte ve sahip olduğu alana sadık kalarak hedef dile çevrilebilmektedir. Bu yöntemin genelleme ile iyileştirildiği ek bir uygulaması yapılmıştır. Referans amacıyla kullandığımız yalın sistem, bu sistemin yetersiz kaldığı noktalarda danışılmak üzere bir geri çekilme modeli olarak kullanılmıştır. Bir diğer alan uyarlaması değerlendirmesi, faktörlü çeviri modeli çatısından faydalanarak alan bilgisinin çeviri aşamasına doğrudan katılması ile gerçekleştirilmiştir. Çeviri modelindeki eşleşmiş her bir sözcük öbeği çifti elde edildikleri alanın etiketini kendileriyle birlikte taşımaktadırlar. Bu ek bilgi ile çeviri opsiyonlarının değerlendirildiği çözümleme aşamasında alanların bilincinde bir seçim yapılacağı öngörülmektedir. Son olarak, istatistiksel bilgisayarlı çeviri sistemi bileşenlerinden olan dil modeli aracılığıyla bir alan uyarlaması modeli gerçeklenmiştir. Her biri kendi alanına ait verilerle oluşturulmuş dil modelleri yalın sistemdeki genel dil modelinin yerine kullanılmış, böylece alana özgü dil modeli kullanmanın çeviri kalitesine etkisi gözlemlenmiştir. Çalışmaların sonuçları bir bilgisayarlı çeviri otomatik değerlendirme ölçütü olan BLEU ile değerlendirilmiştir. Yapılan çalışmalar göstermektedir ki, İngilizce'den Türkçe'ye bilgisayarlı çeviri sistemlerinde en iyi alan uyarlaması performansı dil modeli uyarlaması ile elde edilmektedir. Bu yöntemle birlikte çeviri başarısı 27,36 BLEU puanından 29,89 BLEU puanına yükselmiştir. Yalın istatistiksel bilgisayarlı çeviri sistemine kıyasla %9,25 oranında göreceli iyileşme gözlenmiştir.
Machine Translation (MT) is the automatic translation of texts or speeches from one natural language into another with or without human assistance. It is useful for different purposes and application environments. MT is practical for the interaction, dissemination and assimilation of information. It is used for not only producing “printable” quality texts, but also editing of “raw” outputs. Raw defines immature production which requires post-editing. Although the ideal goal of a machine translation system is to be able to produce high-quality translations, in practice translation outputs are generally revised. One should note that post editing outputs do not differ from the outputs of human translators with the advantage of less labor by a human translator. The correction of misspellings, the detection of domains or languages, and the classification of documents are in the scope of MT. MT can support individual users in the case of sufficient clarity of translation, such as reading/writing e-mails, surfing the web, basic writing in a foreign language. MT may also be used by embedding in a different system for information retrieval, information extraction, transliteration, summarization, question answering (cross-language) or authoring software.  MT is one of the major, oldest and the most active areas of natural language processing. The initial research in this area started in the 1950s primarily on the rule-based methods, which transfer the information within different levels of linguistic knowledge (morphological, syntactical, semantical). Since the 1990s, after the success of the statistics is recognized in the speech recognition and speech processing, MT research shifted to the statistics-based approaches. In the last two decades, with the increase of interaction between different cultures and increasing number of available language resources, the usage of statistical approaches gathered pace.  Statistical approaches are based on machine learning of the translation probabilities from the aligned parallel texts instead of the labor intensive rule definitions. Although there has been quite extensive work in this area for some fortunate languages, there has not been enough research for Turkish. In this thesis, the effects of different domain adaptation methods on a state-of-the-art English-to-Turkish statistical machine translation system are researched, then results are reported. In the light of these results, we constructed a prototype of a general-purpose statistical machine translation system adaptable to different domains. The majority of studies in the literature show the effect of domain adaptation on a specific domain, whereas this study shows the positive effect of domain adaptation on general translation quality.  There are several challenges of building that kind of an English-to-Turkish model in many aspects. The major challenge is that these two languages belong to different language families and have distant typologies. While English has a limited morphological structure, Turkish has a rich, productive, derivational and inflectional morphological structure. A single word in Turkish can be stated in English with a phrase composed of many words. For example, the word “güldürebilmiştim” can be translated into English in a complete sentence “I had been able to make somebody laugh.”. While English has a fixed constituent order like subject-verb-object (SVO), Turkish has a free constituent order (subject-object-verb (SOV) is generally preferred). The sentences “Bozulan bilgisayarımı abim tamir ettirdi.” (Object-S) and “Abim bozulan bilgisayarımı tamir ettirdi.” have completely the same meaning (“My brother had my broken computer repaired.”). This paper focuses on the usage of different domain adaptation methods to build a general purposes statistical machine translation (SMT) system for languages with limited parallel training data. Turkish prominently suffers from data sparsity problem because of its morphologically rich nature. In a morphologically rich language, one stem can have multiple surface representations, that is many words can be derived from one root. Hence, it is quite difficult to build a corpus that includes all possible surface representations in the respective language. In this research, the usability and the effects of domain adaptation methods on the English-Turkish SMT are investigated on behalf of other similar disadvantaged languages. This study is carried out using four different sources of domain data namely literature, news, web and subtitles. The data in this study consists of sentence-aligned English-Turkish translations, which is called parallel data in the literature. This research shows the first results of domain adaptation for Turkish, so it will be the pioneer of this valuable research subject for future studies. The acknowledged domain adaptation methods in the literature are the ones based on the domain-specific data, the translation model, the language model, and the factor translation models framework. In this thesis, a baseline system is built to compare other methods to a reference point. This baseline is trained on all available parallel data from all domains, in this way a single statistical machine translation system is constructed. The translation model of the baseline translation system is obtained from all available parallel data and the language model is obtained from the monolingual data set in the target language of the same parallel corpus. In the first domain adaptation method, four domain specific SMT systems are built. The language and translation models of these systems are obtained from data of their own domains. Then, they are combined together with a text classifier. The classifier sends the input sentences to appropriate domain-specific SMT system, so the complete system can translate sentences in compliance with the domains. As an extension of this method, the baseline system is used as a back-off solution in case it fails to produce any translation options. If a translation option cannot be found in the domain-specific translation model, the domain-adapted system looks for a possible translation in the general translation model. The translation option obtained from the general translation model is better than not having any translation. Thus, this back-off method is expected to increase the general translation quality. The other domain adaptation method used in this thesis is to use the domain information as a factor in the framework of factored translation models. Every phrase pair in the translation model is extracted with its domain information from the parallel data. With the insertion of these domain tags directly into the translation process, the system is capable to select the best options in the consciousness of domains. Finally, a domain adaptation model is formed by the language model as one of the statistical machine translation system components. For this purpose, four different domain-specific language models are built from the monolingual data of their own domains. These domain-specific language models constructed four different domain-adapted-systems by combining with a general translation model, which is the same model used in the baseline system. So that, the effect of using domain-specific language models on translation quality can be observed. The results of this research are evaluated by BLEU metric which is the well-known machine translation evaluation metric. One of the results of this study is that domain adapted systems are not quite successful at translating out-of-domain sentences. Second, in case of insufficient data, domain adapted systems based on domain specific data fail to produce systems representing that domain. Hence, if sufficient domain specific data is not available, to build a compact translation system out of all data is more appropriate than to combine domain specific systems. The use of factored translation models to convey domain information directly into the translation process did not increase the overall translation quality in this study. It is shown that adapting translation model is a promising domain adaptation method; especially, through the multiple decoding paths and back-off models. In the conclusion of all experiments, our comparative experiments show that the language model adaptation gives the best domain adaptation performance on the English-to-Turkish statistical machine translation system. With the use of language model adaptation, translation success increased with a relative 9.25% improvement yielding 29.89 BLEU points on multi-domain test data.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
Bilgisayarlı Çeviri, İstatistiksel Bilgisayarlı Çeviri, Alan Uyarlaması, Dil Modeli Uyarlaması, Çeviri Modeli Uyarlaması, Alternatif Çözümleme Yolları, Geri Çekilme Modelleri, Machine Translation, Statistical Machine Translation, Domain Adaptation, Language Model Adaptation, Translation Model Adaptation, Alternative Decoding Paths, Back-off Models
Alıntı