FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Doktora
Bu koleksiyon için kalıcı URI
Gözat
Yazar "Adalı, Eşref" ile FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Doktora'a göz atma
Sayfa başına sonuç
Sıralama Seçenekleri
-
ÖgeAkraba Ve Bitişken Diller Arasında Bilgisayarlı Çeviri İçin Karma Bir Model(Fen Bilimleri Enstitüsü, ) Tantuğ, Ahmet Cüneyd ; Adalı, Eşref ; Bilgisayar Mühendisliği ; Computer EngineeringGünümüzde bilgisayarlı çeviri sistemlerinin başarımları düşük olsa da, aynı dil ailesi içerisinde yer alan benzer diller arasında gerçeklenen bilgisayarlı çeviri çalışmalarında daha yüksek başarımlar elde edilmektedir. Bu çalışma kapsamında, bitişken özellik gösteren akraba diller arasında bilgisayarlı çeviri için yeni bir model önerilmiştir. Hem kural tabanlı hem de istatistiksel bileşenlerden oluşan bu model çerçevesinde Türk dilleri arasında çeviri konusu incelenmiştir. Türk dilleri arasında bilgisayarlı çeviri başarımını incelenmek üzere, önerilen modeli temel alan bir çeviri altyapısı gerçeklenmiştir. Deneysel uygulamalar için Türkmenceden Türkçeye çeviri yönü seçilmiş ve üretilen çıktılar, genel kabul görmüş değerlendirme yöntemleri ile puanlanarak en kaliteli çıktı üretilecek şekilde çeşitli parametreler belirlenmiştir. Gerek otomatik gerekse de insan emeği ile yapılan değerlendirmeler sonucunda başarımın yüksek olduğu görülmüştür. Bu sonuçtan hareketle, Türk dil ailesindeki diller arasında çeviri işleminin, önerilen model kullanılarak diğer yöntemlerden görece olarak daha kolay ve daha az dilbilgisel kaynak kullanılarak gerçeklenebileceği gösterilmiştir.
-
ÖgeBuilding of Turkish propbank and semantic role labeling of Turkish(Institute of Science And Technology, 2018-01-16) Şahin, Gözde Gül ; Adalı, Eşref ; 504122519 ; Computer Engineering ; Bilgisayar MühendisliğiUnderstanding a human language has been a dream of manhood for more than a decade. Although early science fiction movies have predicted that dream would have come true by now, it has not. The reasons are varied however ambiguity, the need for context, common sense knowledge, the variety in word/sentence structures can be considered as such. There have been attempts to disambiguate word meanings, analyze language structures, and model common sense knowledge to reach this goal, however, it is ongoing research with many subfields. In this thesis, we are interested in one of its subfields: shallow semantic parsing or semantic role labeling (SRL). It aims to dissolve the understanding problem into identifying action/event-bearing units and their participants. In that way, independent from the structure of the sentence, the same representation can be produced, (e.g. "Economy grew by 5%" and "The growth of the economy was 5%" or "The window broke" and "Stone broke the window"). The output representations of this task can benefit other natural language understanding tasks such as information retrieval, sentiment analysis, question answering, and textual entailment. In order to perform this task a resource that contains the meanings of action/event bearing units (in our case verbs) and their frequent participants, named Proposition Bank (PropBank), should be created to guide the machine learning techniques. Unfortunately creating such a resource requires a large amount of time, budget, and linguistic experts. Therefore has not seen possible for low-resourceful languages like Turkish. In this thesis, we aim to address this issue by incorporating crowd intelligence into the construction workflow. We design a novel workflow that requires a minimum number of experts with linguistic knowledge. They have been employed for (1) the first crucial step, where semantic frames are manually created, (2) supply quality control mechanism by labeling a small number of questions, and (3) double-check the answers of crowd taskers when taskers could not agree on an answer. Other challenges to creating such a resource are posed by the rich morphology of Turkish. To address this extreme production of new words that cause a theoretically infinite number of action-bearing units, we propose to exploit the semantic knowledge that is acquired by root verbs composed with regular morphosemantic features such as case markers. We evaluate our overall approach for the building of Turkish PropBank by various inter-annotator metrics and show that our resource is of high quality. Though creating a resource is crucial, not enough for automatic labeling of semantic roles. The second part of this thesis focuses on building such automatic methods that are suitable for the Turkish language. For that purpose, we adopt a system that uses a deterministic machine learning model based on linguistic features designed mostly for high-resource, morphologically poor languages. However, the Turkish language poses the following challenges: (1) a significant amount of out of vocabulary words (words that have not been seen in the dictionary) (2) the small number of training instances, and (3) high syntactic variance among predicates and their arguments. These issues cause very sparse features that complicate the learning process of the statistical system. We address these challenges by (1) designing better features that exploit the regularity of morphosemantics, thus not as sparse as previous ones; and (2) taking advantage of pretraining on unlabeled data, in other words, exploiting prior knowledge on Turkish words that have been learned through word embeddings. We show that our approach yields to the first robust Turkish SRL system with an F1 score of 79.84. Our experiments with training data size and the features show that (1) morphosemantic features are vital for Turkish SRL; (2) a reasonable SRL system can be trained with proposed features on 60% of the available data; (3) performance greatly degrades in the absence of high-level syntactic features and (4) continuous features model complex interactions between information levels and lead to further improvement in the scores. Although the statistical SRL system has been shown to be successful in the presence of gold tags, it suffers from accumulating errors of external NLP tools that are required for feature extraction. To address this problem, we introduce a neural SRL system that employs bi-directional long-short-term-memory (LSTM) units to operate on subword units that do not require syntactic preprocessing (or only minimal). Unlike previous techniques that use pre-trained word embeddings, the proposed model generates a word embedding by composing the subword units. Available subword composition techniques did not make any distinctions between morphology types. In order to distinguish derivational morphology from inflectional morphology, we propose a linguistically motivated composition technique and systematically analyze the effect of subword and composition types. We show that (1) character-based models with bi-LSTM composition perform similar to models that use morphological information for languages with poor morphology, whereas at least 3 percentage point drop is observed on F1 scores for morphologically rich languages and (2) linguistically motivated composition method surpasses other techniques for Turkish SRL. We evaluate various techniques to combine multiple subword units in order to test whether subwords learn complementary features for argument labeling. We show that character and char-trigram combination improve the scores in all cases, whereas combining character with morphology does not help most languages with rich morphology, suggesting that characters do not capture any information that is not already embedded in morphological models. Finally, all resources are made accessible to encourage researchers to work on the Turkish language.
-
ÖgeDempster-shafer Algoritmasının Kullanımı İle Sınıflandırma Algoritmalarının Birleştirilmesi(Fen Bilimleri Enstitüsü, ) Aygün, Hüseyin ; Adalı, Eşref ; Bilgisayar Mühendisliği ; Computer EngineeringBu çalışmada farklı sınıflandırma algoritmalarından elde edilen sonuçların, Dempster’in Birleştirme Algoritması ile birleştirilmesinde, sınıflandırıcıların doğruluğunu da göz önünde bulundurulan bir yöntem önerilmektedir. Farklı veri takımlarıyla yapılan deneyler sonucunda, önerilen yöntemle yapılan birleştirme işleminin, birleşimde kullanılan her bir sınıflandırma algoritmasından daha doğru ve daha başarılı sonuçlar gerçeklediği gösterilmiştir.
-
ÖgeTürkçe Sözcük Anlam Belirsizliği Giderme(Fen Bilimleri Enstitüsü, ) İlgen, Bahar ; Adalı, Eşref ; 10096081 ; Bilgisayar Mühendisliği ; Computer EngineeringDoğal dillerde yaygın olarak gözlenen “Anlam Belirsizliği” kavramı bir sözcüğün birden fazla anlama sahip olması durumudur. Sözcük Anlam Belirsizliği Giderme (SABG) işlemi, birden fazla anlama sahip sözcüğün kullanıldığı bağlamda en uygun anlamının belirlenmesi olarak tanımlanmaktadır. İnsanlar arası iletişimde, önceki deneyimler ve karmaşık insan bilişsel süreçlerinin yardımıyla çözümlenen anlam belirsizliği, bilişim ve Doğal Dil İşleme (DDİ) alanlarında da ele alınmakta olan önemli ve güncel konular arasında yer almaktadır. Bir sözcüğün anlamının belirginleştirilmesi DDİ alanındaki uygulamaların tamamına yakınında başarıma katkı sağlayan ve gereksinim duyulan bir adımdır. Bu uygulamalar, Bilgiye Erişim (BE), Bilgisayarlı Çeviri (BÇ), Anlamsal İşaretleme (Aİ), Soru Cevaplama (SC) gibi pek çok alanı içine almaktadır. Günümüzde Bilgisayarlı Dilbilim (BD) çalışmalarına internet ve diğer alanlarda duyulan gereksinim büyük boyutlara ulaşmıştır. Bu gereksinim sonucunda, sözü edilen DDİ uygulamaları kapsamında çeşitli yöntem ve algoritmalar geliştirilmiştir. Bu çalışmalarda, dillerin yapısı, mevcut kaynak ve kısıtlar, uygulamanın gereklilikleri gibi unsurların önemli rolü olduğu ve yöntemlerin bu doğrultuda geliştirildiği bilinmektedir. SABG alanındaki çalışmalar göz önünde bulundurulduğunda, bilgi, derlem tabanlı ve melez yöntemler olmak üzere üç yaklaşımın öne çıktığı görülmektedir. Bilgi tabanlı yöntem ailesinde sözlük, eş anlamlılar sözlüğü ve ontolojiler kullanılan temel kaynakları oluşturmaktadır. Derlem tabanlı yaklaşımlarda bilgi derlemlerden öğrenilmektedir. Derlem tabanlı yöntemler kendi içinde denetimli, denetimsiz ve yarı denetimli alt sınıflarına ayrılmaktadır. SABG alanında yapılan ilk çalışmalarda ağırlıklı olarak anlam işaretli derlemlere gereksinim duyulan denetimli yöntemler üzerinde durulmuştur. Denetimli yöntemlerle anlam belirsizliği yüksek doğrulukla giderilse de Türkçe gibi kaynak ve derlemlerin kısıtlı olduğu dillerde yarı denetimli ve denetimsiz yöntemler yakın zamanda yapılan çalışmalarda önem kazanmıştır. Denetimsiz ve yarı denetimli yöntemleri tercih edilir kılan bir diğer sebep ise derlem anlam işaretlemelerinin emek yoğun bir süreç olmasıdır. İşaretli derlemlerin yetersiz olduğu ya da kullanılmadığı çalışmalarda sözlük anlamlarına bağımlılık ortadan kalkmakta ve derlemler sözcüğün anlamlarını kendi bulmaktadır. Melez yöntemlerde ise bilgi ve derlem tabanlı yöntemlerden birlikte faydalanılmaktadır. Kullanılan denetim seviyesinin yanında SABG alanı için yapılan bir diğer sınıflandırma, probleme olan yaklaşımın kapsamı ile ilgilidir. Sözü edilen sınıflandırma; 10 Seçilmiş Sözcük Yaklaşımı (SSY) ve 20 Tüm Sözcükler Yaklaşımlarını (TSY) içine almaktadır. İlk yaklaşımda, önceden saptanan bir hedef sözcüğe ilişkin örneklerdeki belirsizlik giderilmektedir. SSY yaklaşımında sözcük ve anlam kümeleri sınırlı olduğundan anlam belirsizliği giderilmesinde genellikle denetimli makine öğrenmesi yöntemlerinin kullanımı tercih edilmektedir. Anlam etiketli örnekler sınıflandırıcının eğitilmesinde kullanılmaktadır. Anlam belirsizliğine sahip bir sınama örneğinin anlam ataması eğitilen sınıflandırıcı ile gerçekleştirilmektedir. TSY yaklaşımında ise belirli bir metin içerisindeki tüm sözcüklerin belirsizliğinin giderilmesi hedeflenmektedir. TSY yaklaşımı ile sözcük türü etiketleme arasında benzerlik bulunmakla birlikte, TSY yaklaşımında gereksinim duyulan etiket kümesi diğerine göre çok daha büyük olmaktadır. Etiket kümesinin büyüklüğü ise her sözcük için yeterli miktarda örnek bulmadaki zorluktan ötürü veri seyrekliği sorununa yol açmaktadır. Sözlük ya da derlemlerden elde edilen bilgi, anlam belirsizliği gidermede en temel bileşendir. Bilgi kaynakları, görünüm bilgisi ya da öğrenilmiş bilgi sınıflarına ayrılmaktadır. İlk grup sözcük anlam sıklıkları, kavram ağaçları, seçimsel öncelikler, sözcük etiketleri gibi bilgi türlerini içine alırken, öğrenilmiş bilgi sınıfları ise belirtici sözcükler, sözdizimsel özellikler, alana özgü bilgiler ve paralel derlemler gibi alt sınıflardan oluşmaktadır. Yapılan çalışmalarda öğrenilmiş bilgi türlerinin daha çok denetimli yöntemlerde, görünüm bilgisinin ise denetimsiz yöntemler dahilinde kullanıldığı gözlenmiştir. Uygulamada ise bilgi kaynaklarının çeşitli kombinasyonları SABG çalışmalarında kullanılmaktadır. Makine öğrenmesi yöntemleri derlem tabanlı SABG yöntemleri dahilinde anlam belirsizliği giderme bilgisinin otomatik olarak çıkartılmasında kullanılmaktadır. Bir SABG uygulamasında genellikle kullanılan kaynaklar; anlam işaretli derlemler, çevrimiçi sözlükler ve doğal dillere ilişkin geniş ölçekli kaynaklardan oluşmaktadır. Bir SABG uygulamasında kullanılacak özellik kümeleri ve öğrenme aşamasında kullanılan algoritma seçimi iki önemli unsurdur. Bir çok DDİ uygulamasında makine öğrenmesi yöntemleri ile elde edilen bilgiden faydalanılmaktadır. SABG alanında kullanılan denetimli yöntemler model ya da kuralların oluşturulma biçimine göre sınıflara ayrılmaktadır. Bu yaklaşımlar istatistiksel yöntemler (Naïve Bayes), benzerlik tabanlı yöntemler (k- En Yakın Komşu algoritması), konuya özgü özellikler (Bir söz öbeği/bağlam için bir anlam), ayrıştırıcı kural yöntemleri (karar listeleri, karar ağaçları, kural birleşimine dayalı yöntemler), doğrusal sınıflandırıcılar ve Kernel yöntemlerinden oluşmaktadır. Sözcük etiketleme ve sözdizimsel analiz gibi DDİ alanındaki diğer çalışma konularına kıyasla SABG konusu bir takım zorlukları içermektedir. Her sözcük bir anlam ile eşleşeceğinden tam bir eğitim verisinin oluşturulabilmesi için çok büyük miktarda örnek gereksinimi ortaya çıkmaktadır. Dildeki veri seyrekliği problemini aşmanın bir yolu eğitim algoritmasında kullanılacak özelliklerin doğru seçilmesinden geçmektedir. Bu özellikler, yerel ya da geniş ölçekte bulunabilmektedir. Makine öğrenmesi yönteminin uygulanmasından önce tüm örneklerin öğrenme algoritması tarafından anlaşılacak şekilde kodlanması gerekmektedir. Konumsal Özellikler (KÖ) ve Sözcük Kesesi (SK) özellikleri SABG çalışmalarında ele alınan hedef sözcüğün komşularından elde edilen iki önemli özellik grubudur. Yapılan çalışmaların tamamına yakınında belirsizliği giderilmek istenen sözcüğün merkezde olduğu bir “n” pencere aralığından faydalanılmaktadır. Konumsal özellikler ile hedef sözcüğün sol ve sağ komşularına ilişkin bilgiler kullanılmaktadır. Kullanılan bilgiler, sözcük gövde biçimleri ve sözcük türleri gibi bileşenlerden oluşmaktadır. İkinci grup olan SK özelliklerinde ise sözcükler herhangi bir sıra ya da konum gözetilmeksizin ele alınmaktadır. Benzerlik ölçütü olarak seçili penceredeki sözcüklerin konum gözetmeksizin bulunup bulunmama durumlarına ve sıklıklarına bakılmaktadır. Doğal dillerdeki kısıtlı kaynaklar göz önünde bulundurulduğunda, faydalanılacak bilginin doğru seçilmesi ve etkin özelliklerin kullanılması derlemlerdeki doğru anlamların belirlenmesinde özellikle önemlidir. Bu çalışma kapsamında yapılan özgün çalışmalar ve katkılar aşağıda açıklanmıştır: • Hedef Sözcük Derlemi (HSD): Her bir paragrafı hedef sözcük içeren metinlerden oluşan bir derlem hazırlanmıştır. Derlemin hazırlanması sırasında önce Türkçede belirsizlik derecesi yüksek olan isim ve eylemler belirlenmiştir. Ardından seçilen sözcükler için dengeli olarak metinler toplanmıştır. Daha sonra bu sözcükler oylayıcılar tarafından Türk Dil Kurumu (TDK) sözlüğündeki anlamlar ile işaretlenmiştir. • Etkin Özelliklerin Bulunması: Etkin özelliklerin bulunmasında iki yöntem denenmiştir: 10 Konumsal Özellikler , 20 Sözcük Kesesi Özellikleri. • Bir sözcüğün belirsizliğinin giderilmesinde etkin özelliklerin ortaya çıkartılabilmesi için denetimli yöntemler üzerinde çalışılmıştır. Bu çalışmanın sonunda hedef sözcüğün öncesinde ve sonrasında yer alan sözcüklerin etkin özellikleri çıkartılmış ve bu özelliklerin belirsizlik gidermeye katkıları ortaya konulmuştur. Bu çalışmalar yapılırken pencere boyu sabit tutulmuştur. Çalışma kapsamında sözcük kök ve eklerinin oluşturduğu biçimbilimsel analiz çıktılarının hedef sözcük ve komşuları ile birlikte değerlendirmeye alındığı konumsal özellikler sınanmıştır. • Etkin özellikleri belirlemede sözcük kesesi yönteminin katkısı da incelenmiştir. Etkin özelliklerin bulunmasında en uygun kese boyu belirlenmiştir. Bu çalışma hedef isim ve eylemler için gerçekleştirilmiştir. Kese içinde bulunan sözcüklerin hedef sözcüğün ne kadar yakınında araştırılması gerektiği ortaya konmuştur. • Konumsal özellikler ile sözcük kesesi yöntemlerinin sonuçları karşılaştırılmış, konumsal özelliklerin anlam belirsizliği gidermedeki etkisinin daha yüksek olduğu gösterilmiştir. Her iki yöntem birlikte kullanıldığı takdirde daha iyi sonuç bulunmuştur. • Denetimli yöntemlerle belirsizlik giderme çalışmasını sürdürebilmemiz için Türkçeyi yetkin biçimde temsil eden ve sözcüklerin anlamları işaretlenmiş derlem gerekmektedir. Böyle bir derlemin Türkçe için olmadığı ve yapılmasının çok emek yoğun olacağı bilindiği için çalışmamızı denetimsiz yöntemlere yöneltmiş bulunmaktayız. • Denetimsiz yöntem olarak DDİ alanında çok az kullanıldığına tanık olduğumuz çizge tabanlı yöntem Türkçe için geliştirilmiştir. İlk aşamada yöntemi gerçekleştirmek üzere gerekli program hazırlanmıştır. İkinci aşamada yöntemi etkin kılmak için çizge parametrelerinin etkisi değerlendirilmiştir. Denetimsiz yöntemin çizgesini oluşturmak ve başarımı ölçmek için HSD kullanılmıştır. • Sonuç olarak geliştirdiğimiz denetimsiz yöntem ile Türkçe sözcüklerinin belirsizliğinin giderilebileceği ortaya konmuştur. Ancak yöntemimizin en son aşamasında merkez düğümlerin anlamları işaretlenmiş derlemden yararlanarak belirlenmiştir. Geliştirdiğimiz yöntemin başarımı denetimli yöntemlere yakın ölçülmüştür.
-
ÖgeTürkçe Tümcelerin Yüklem Odaklı Anlam Ve Dilbilgisi Çözümlemesi(Fen Bilimleri Enstitüsü, ) Dönmez, İlknur ; Adalı, Eşref ; 10119467 ; Bilgisayar Mühendisliği ; Computer EngineeringÇalışmamız tümcelerin anlamsal ve dilbilgisi çözümlemesini içermektedir. Tümcenin anlamsal ve dilbilgisi açısından çözümlenmesi Doğal Dil İşleme (DDİ)’nin ana konulardan biridir. Çalışmamızda, çözümleme yapılırken önce metin içindeki tümcelerin her biri basit tümce olacak şekilde alt tümcelere ayrıştırılmaktadır. Her bir alt tümceye ait öbek kavram çiftleri bulunmakta ve daha sonra her bir alt tümcedeki temel dilbilgisi ve anlamsal yanlışları saptamak için yüklemi temel alan yeni bir yöntem önerilmektedir. Türkçe tümcede yüklem özne ve zaman bilgisi içerir. Ayrıca yüklem, o tümcenin hangi öbeklerden oluşabileceği konusunda da belirleyicidir. örneğin, ``büyümek'' yüklemi tümce içinde nesne almazken, ``-de'' ekiyle biten dolaylı tümleç öbeğini alır. Örneğin ``Ayşeyi büyüdü.'' tümcesi sorunluyken, ``Sokakta büyüdü.'' tümcesi doğrudur. Yüklem ayrıca her bir öbeğin içereceği kavram hakkında da bilgi içermektedir. örneğin ``düşünmek'' yüklemi insanlara özgüdür. Dolayısıyla özne olarak insan kavramıyla ilişkilidir. ``Kapı bugün ne yapacağını düşündü.'' tümcesi mantıklı değildir. Bu saptamalardan yola çıkarak çalışmamızda, tümcelerin öbekleri bulunmuş; her bir öbeğin hangi kavramla ilişkili olduğu belirlenmiş ve tümcenin dilbilgisi çözümlemesini ve anlam çözümlemesini yapan bir model tasarlanmıştır. Çalışmamızda tümceler hal ekleri ve temel öbek yapıları kullanılarak 10 öbeğe ayrıştırılmıştır. Her bir öbeğin içerdiği kavramın 51 kavram sınıfından hangisine ait olduğu belirlenmiştir. öbek-kavram çiftlerinin yüklemle uyumluluğu araştırılırken çatı, kişi ve zaman ekleri de değerlendirilmiştir. Çalışmamızda, her öbek kavram bir matris elemanıyla temsil edilmektedir oysa birleşik tümcelerde öbekler içinde iç tümcelere sahip olabilmektedir. örneğin ``okula sevinçle gelen Ayşe'' öznesi içinde farklı bir iç tümceyi içermektedir. Anlamsal ve dilbilgisi hatası bu iç tümcelerde bulunabilmektedir. örneğin eğer özne öbeği ``okulda sevinçle gelen Ayşe'' olsaydı, gelmek fiili bulunma öbeğiyle uyumlu olmayacak dolayısıyla bu özneyi içeren tümce doğru bir tümce olmayacaktı. Bu nedenle çalışmamız iç tümceleri de içerecek şekilde genişletilmiştir. Bu amaçla tümceler içerdikleri sıfat fiil, zarf fiil yada mastar sayısınca alt tümceye bölünmüştür ve ayrılan her bir alt tümce için çözümleme tekrarlanmıştır. Günümüzde hala pek çok DDİ uygulamasında, tümcelerin içerdiği her bir kelime binler boyutunda temsil edilmekte, farklı kelime sayısına sahip tümcelerin boyutları sabit olmamakta ve tüm bu tümce temsili oldukça ayrık bir yapıya sahip olmaktadır. Çalışmamızda oluşturulan, tümcenin içerdiği öbek kavram türünden sabit uzunluklu, nispeten az boyutlu (10x51) kaba anlamsal matris temsili pek çok anlamsal DDİ çalışmasında kullanılabilecek özelliktedir. Çalışmamızın son bölümünde bu temsilin anlamsal uygulamalarda başarı sağladığı gösterilmiştir. Tümcenin yüzeysel anlamını içeren matris yapısının son satırına yüklemin özellikleri de eklenerek bir döküman sınıflama uygulamasında kullanılmıştır. WEKA paketi ile beş farklı çeşit sınıflandırma algoritması kullanılarak beş ayrı katagorideki dökümanlar sınıflandırılmış sonuçta 145 özellikle 86.10 başarı elde edilmiştir. Modelimize ait özellikleri eski özelliklere eklediğimizde en yüksek başarı olan 97,12'lik en yüksek başarı değeri elde edilmiştir. Sonuç olarak bu çalışmamızda tümcenin öbek kavram vektör temsili oluşturulmuş ve tümcenin dil bilgisel ve anlamsal olarak çözümlenmesi için vektör kıyaslanması kullanan yeni bir yöntem sunulmuştur. Bu yöntemle yapısal hatalardan hedeflenen %81,16'lık dilim içinden %64'lük hata tespit edilmiştir. Çalışmamız ayrıca %81,16 başarı ile tümcelerin alt tümcelerinin bulunduğu; %89 başarıyla tümcelerin kendilerinin ve alt tümcelerinin öbeklerine ayrıldığı, %82,8 başarıyla içerdiği kavramların bulunduğu, içerdiği zaman türünün incelenip yüklemle kıyaslandığı, öznesinin tipinin, tekil ya da çoğul olduğunun incelendiği Türkçe tümce çözümleme kaynağı olmak hedefindedir. Türkçenin düzenli tümce yapısı ve düzenli yüklem yapısı bu çalışmanın esin kaynağı olmasına karşın, öbek-kavram temsili tüm diller için kullanılabilecek bir yöntemdir.
-
ÖgeTürkçe'nin Bağlılık Ayrıştırması(Fen Bilimleri Enstitüsü, ) Eryiğit, Gülşen ; Adalı, Eşref ; Bilgisayar Mühendisliği ; Computer EngineeringBu çalışmada, zengin bitişken bir biçimbirimsel yapıya sahip, tümce içi öğe dizilişleri serbest ve çoğunlukla sağa bağımlı türde olan Türkçe’nin bağlılık ayrıştırması konusunda araştırmalar yapılmıştır. Sıralanan bu özellikleri ile Türkçe, İngilizce’den ve ayrıştırma alanında üzerinde yoğun olarak çalışılmış birçok dilden farklılıklar göstermektedir. Bu niteliği ile benzer özellikler gösteren bir sınıf dilin temsilcisi olarak görülebilir. Bu çalışmada, yakın geçmişte kullanıma sunulan Türkçe derlem (Odtü-Sabancı Türkçe ağaç yapılı derlemi) kullanılarak, veri güdümlü ayrıştırıcılarda farklı tasarım yöntemlerinin kullanılmasının etkileri incelenmiştir. Öncelikle ayrıştırma algoritmaları ve öğrenme algoritmalarını içeren temel ayrıştırma mimarisi, temel model olarak alınan bazı kural tabanlı ayrıştırıcılar, koşullu olasılık tabanlı modele dayalı bir istatistiksel ayrıştırıcı ve ayırdedici öğrenmeye dayalı sınıflandırıcı tabanlı gerekirci bir ayrıştırıcı kullanılarak irdelenmiştir. Daha sonra, ayrıştırmada biçimbirimsel birimleri, çekimsel özellikleri ve görünüm bilgilerini kullanmanın etkileri incelenmiştir. Sonuçlar, sözcükler yerine sözcüklerden daha küçük olan biçimbirimsel birimlerin tümce yapısının ana birimleri olarak kullanılmasıyla, Türkçe’de ayrıştırma başarımının arttırılabileceğini ve çekimsel özelliklerin ve görünüm bilgilerinin kullanılmasının Türkçe’nin bağlılık çözümlemesinde çok önemli etkisinin olduğunu göstermektedir. Araştırmalar sonucunda, Türkçe’nin bağlılık ayrıştırması konusunda ilgili çalışmalar arasındaki en yüksek başarımlar elde edilmiştir.
-
ÖgeUygurcadan Türkçeye Bilgisayarlı Çeviri(Fen Bilimleri Enstitüsü, 2010-06-18) Orhun, Murat ; Adalı, Eşref ; Bilgisayar Mühendisliği ; Computer EngineeringBilgisayarlı çeviri yapay zekâ bilim alanının bir alt dalı olan Doğal Dil İşlemenin (DDİ) önemli bir konusudur. Bilgisayarlı çeviri, bir doğal dili başka bir doğal dile çevirme işlemidir. Bilgisayar teknolojisinin gelişmesi ve bilgisayarın yaygınlaşmasıyla bilgisayarlı çeviri alanındaki araştırmalar yaygınlaşmış ve birçok çeviri sistemleri geliştirilmiştir. Bu tezin amacı Uygurcadan Türkçeye bilgisayarlı çeviri konusunda gerekli kuramsal altyapıyı oluşturmak ve bunun üzerinde kurulacak yazılımlar ile çeviri işlemini gerçekleştirmektir. Bir kaynak dilden hedef dile çeviri yapabilmek için, özellikle bitişken diller için ilk yapılması gereken çalışma dillerin biçimbilimsel çözümleyicilerinin tasarlanmasıdır. Türkçenin biçimbilimsel çözümlenmesi daha önceden yapıldığından, bu çalışmada sözkonusu bu çözümleyici doğrudan kullanılmıştır. Uygurcanın dil yapısı araştırıldıktan sonra Uygurca için bir biçimbilimsel çözümleyici geliştirilmiştir. Uygurcadan Türkçeye çeviri yapabilmek için bu tez kapsamında çeşitli çeviri kuralları tanımlanmıştır. Belirsizliklerin giderilmesi için ise biçimbilimsel ve anlamsal belirsizlik giderici geliştirilmiştir. Bu tezde akraba ve bitişken diller için önerilen karma yöntemi üzerine belirsizlik giderme çalışmaları da ele alınarak Uygurca metinden Türkçe metne bilgisayarlı çeviri yapabilen bir sistem geliştirilmiştir. Farklı yapılarda bulunan 240 adet tümce, önerilen bu sistem üzerinde sınanmış ve sistemin elde ettiği başarı BLEU ölçeğine göre değerlendirilmiştir.
-
ÖgeWeb Kullanıcıları İçin Öneri Modelleri: Kullanıcı İlgisi Modeli Ve Tıklama İzi Ağacı(Fen Bilimleri Enstitüsü, ) Gündüz, Şule ; Adalı, Eşref ; Bilgisayar Mühendisliği ; Computer EngineeringBu çalışmada, bir Web kullanıcısının bir sonraki isteğini öngörmek için iki yeni model önerilmiştir. Modeller, bir Web kullanıcısına bir Web sitesini ziyareti sırasında yol göstermek üzere bir öneri kümesi oluşturmak için geliştirilmişlerdir. Birinci model (kullanıcı ilgisi modeli) kullanıcı oturumlarındaki sayfa isteklerinin erişim sırasını göz önünde bulundurmadan yalnızca sayfa ziyaret süresini ve sayfa ziyaret sıklığını kullanır. Ortaya çıkan model en az daha önce önerilen modeller kadar doğru öngörü sağlarken daha az çalıştırma hesaplaması ve bellek gereksinimine sahiptir. İkinci model (tıklama izi ağacı) hem ziyaret edilen sayfaların düzenini hem de bu sayfalarda geçirilen süreyi göz önünde bulundurur. Değişik Web siteleri üzerinde yapılan deneyler modellerin Web siteleri arasında sağlam olduğunu ve cep belleğe alma içinde kullanılabileceğini göstermektedir. Sonuçlar sürenin uygun normalizasyonunun iyi bir öngörü doğruluğu getirdiğini göstermiştir. Ayrıca modeller Web kullanıcılarının erişim örüntülerini temsil etmede oldukça etkilidir ve hız ve bellek kullanımı açısından daha önceki önerilere göre bir avantaja sahiptir.