Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

thumbnail.default.alt
Tarih
2023-09-13
Yazarlar
Altıntaş, Mühacit
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Graduate School
Özet
İnsan-makine etkileşiminin artmasıyla birlikte, doğal dilin anlaşılması, yorumlanması ve üretilmesine yönelik geliştirilen araçlara olan gereksinim de artmışdır. Sözdizimsel analizin amacı, cümledeki unsurların yapısal veya biçimbilimsel ilişkilerini inceleyerek cümleyi oluşturan unsurlar arasındaki ilişkileri tespit etmektir. Bu tespit, cümlenin anlamsal analizi açısından büyük önem taşır. Bağlılık ayrıştırma bir sözdizimsel analiz yaklaşımıdır. Dilbilgisi kurallarını kullanarak gerçeklenebileceği gibi veriden örüntüler çıkarılararak da gerçeklenebilmektedir. Bilindiği üzere Türkçe Ural Altay dil ailesinden sondan eklemeli bir dildir. Bu dil ailesine mensup dillerde ekler kelime yığınları arasında bir çeşit harç görevi görerek, cümleyi meydana getirir. Anlam ilişkileri ekler aracılığıyla kurulduğu için söz dizimi olarak esnek bir yapıya sahiptirler. %Ekler sözcük kökünden uzaklaştıkça diğer kelimelerle anlam ilişki kurma yetileri artmaktadır. Esnek söz dizimine sahip dillerde bağlama bağlı kural sayısı çok fazla olabileceğinden veya belirsizlik içerebileceğinden, veriye dayalı yöntemler bağlılık ayrıştırması için daha verimli sonuçlar vermektedir. Veriye dayalı bağlılık ayrıştırma yöntemi olarak literatürde geçiş tabanlı ve çizge tabanlı olmak üzere iki temel yaklaşım bulunmaktadır. Geçiş tabanlı yaklaşımlar, ayrıştırma sürecini yönlendirmek için ayrıştırıcının mevcut durum yapılanmasına dayalı özelliklere göre adım adım olası eylemleri derecelendirerek bağlılık ağacını oluşturur. Öte yandan, çizge tabanlı yaklaşımlar, kelimeler arasındaki olası her bir bağlılığı puanlayarak en yüksek dereceli bağlılık ağacını arar. Çizge tabanlı teknikler problemi doğrudan ele alırken, geçiş tabanlı yöntemler dolaylı çözümler kullandığı için daha fazla adım gerektirebilir. Geçiş tabanlı ayrıştırma, her adımda mevcut yapılandırma durumlarını ve önceki geçişleri dikkate alır. Özellikle önceki eylemlere dayalı kapsamlı özellik temsillerinden faydalanabilir. Geçiş tabanlı ayrıştırıcılar aç gözlü karar verme yetilerinden dolayı, hızlı ve verimlidirler, ancak hata yayılımı nedeniyle doğruluktan ödün vermektedirler. Öte yandan, çizge tabanlı bağlılık ayrıştırma yaklaşımları, hata yayılımına maruz kalmadıkları için geçiş tabanlı yöntemlere kıyasla daha iyi bir performans sergileyebilir, ancak özellik alanları geçiş tabanlı yöntemlere kıyasla sınırlıdır. Son dönemde yapılan geçiş tabanlı ayrıştırma çalışmalarının odak noktası, öğrenme ve çıkarım performansını artırmakken, çizge tabanlı ayrıştırma çalışmaları özellik kapsamının nasıl genişletileceği üzerine yoğunlaşmıştır. Bu çalışmada, bağlılık ayrıştırmanın temelleri görseller ve matematiksel ifadeler kullanılarak anlatılmıştır. Türkçenin sözdizimsel özellikleri ve önceki çalışmalara ilişkin bilgiler ele alınmıştır. Önde gelen çalışmalar incelenmiş ve kritik detaylar not edilmiştir. Ayrıca, bağlılık ayrıştırması için kullanılan veri kümeleri tanıtılmış ve her bir özelliğin bağlılık ayrıştırması açısından taşıdığı önem incelenmiştir. Türkçe ve diğer önde gelen dillerde izdüşümsel olmayan bağlılık oranları çıkarılmıştır. Türkçe için izdüşümselliği bozan ilişki çiftleri tespit edilmiştir. Derlemlerden izdüşümsel olmayan bağlılık içeren cümle örnekleri verilmiştir. Önde gelen derin sinir ağı yöntemleri kullanılarak çeşitli bağlılık ayrıştırma modelleri geliştirilmiş ve başarımları değerlendirilmiştir. Karakter, hece, kelime parçacığı gibi kelime altı özelliklerin bağlılık ayrıştırma başarımına yaptıkları katkılar incelenmiştir. Türkçe için başarıma katkı sağladığı görülen kelime parçacığı tabanlı kelime temsilinin diğer çekimli dillerde ayrıştırma başarımına yaptığı katkı raporlanmıştır. Türkçenin yanı sıra Fince, Macarca, Endonezce, Japonca, Korece ve Uygurcada kelime parçacığı başarıma pozitif yönde etki ettiği gözlenmiştir. Şartlı rastgele ağlar ve bi-affine tabanlı sınıflandırıcılar kıyaslanmış, topluluk öğrenmesi kullanılarak farklı sınıflandırıcıların artı yönlerinden faydalanılmaya çalışılmıştır. Hata yayılımı ve dengesiz veri sorunlarına duyarsız, izdüşümsel olmayan bağlılıkları çözebilen bir bağlılık ayrıştırıcı tasarlanmıştır. Çizge tabanlı bağlılık ayrıştırıcıların özellik uzayı, insan beyninin cümleleri sentezlerken kullandığı bilgi kaynaklarından esinlenerek genişletilmiştir. Genel anlam bilgisini içeren cümle temsili ek bir özellik olarak kullanılmıştır. Ayrıca, yerel sözcük işbirliklerini yakalamak için evrişimli sinir ağı katmanları kullanılarak alt ağaç yapılarının temsil kapasitesi artırılmıştır. Elde edilen sonuçlar, önerilen geliştirmelerin bağlılık ayrıştırma performansını arttırdığını göstermektedir. Yakın zamanda yayılanan; Türkçe KeNet, Türkçe Penn, Türkçe GB ve Türkçe Tourism derlemleri ilk kez bu çalışmada bağlılık ayrıştırıcı geliştirmek için kullanılmıştır. İlgili derlemlerde elde edilen bağlılık ayrıştırma skorları raporlanmıştır. Çalışma kapsamında geliştirdiğimiz bağlılık ayrıştırıcı ile şimdiye dek Türkçe için raporlanan en iyi bağlılık ayrıştırma başarımları; %82.64 UAS ve %76.35 LAS elde edilmiştir. Ayrıca, İngilizce, Macarca, Korece, Fince ve Estonca gibi dillerde sırasıyla %91.34, %87.39, %89.58, %92.85 ve %88.38 etiketli bağlılık ayrıştırma başarımları (LAS değerleri) elde edilmiştir. Elde ettiğimiz başarımlar, bahse konu diller için literatürde raporlanan LAS değerlerini geride bırakmıştır.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2023
Anahtar kelimeler
derin öğrenme, deep learning, doğal dil işleme, natural language processing, dependency parsing, bağlılık ayrıştırma
Alıntı