LEE- Bilgisayar Mühendisliği Lisansüstü Programı
Bu topluluk için Kalıcı Uri
Gözat
Başlık ile LEE- Bilgisayar Mühendisliği Lisansüstü Programı'a göz atma
Sayfa başına sonuç
Sıralama Seçenekleri
-
ÖgeA variational graph autoencoder for manipulation action recognition and prediction(Graduate School, 2022-06-23) Akyol, Gamze ; Sarıel, Sanem ; Aksoy, Eren Erdal ; 504181561 ; Computer EngineeringDespite decades of research, understanding human manipulation actions has always been one of the most appealing and demanding study problems in computer vision and robotics. Recognition and prediction of observed human manipulation activities have their roots in, for instance, human-robot interaction and robot learning from demonstration applications. The current research trend heavily relies on advanced convolutional neural networks to process the structured Euclidean data, such as RGB camera images. However, in order to process high-dimensional raw input, these networks must be immensely computationally complex. Thus, there is a need for huge amount of time and data for training these networks. Unlike previous research, in the context of this thesis, a deep graph autoencoder is used to simultaneously learn recognition and prediction of manipulation tasks from symbolic scene graphs, rather than using structured Euclidean data. The deep graph autoencoder model which is developed in this thesis needs less amount of time and data for training. The network features a two-branch variational autoencoder structure, one for recognizing the input graph type and the other for predicting future graphs. The proposed network takes as input a set of semantic graphs that represent the spatial relationships between subjects and objects in a scene. The reason of using scene graphs is their flexible structure and modeling capability of the environment. A label set reflecting the detected and predicted class types is produced by the network. Two seperate datasets are used for the experiments, which are MANIAC and MSRC-9. MANIAC dataset consists 8 different manipulation action classes (e.g. pushing, stirring etc.) from 15 different demonstrations. MSRC-9 consists 9 different hand-crafted classes (e.g. cow, bike etc.) for 240 real-world images. The reason for using such two distinct datasets is to measure the generalizability of the proposed network. On these datasets, the proposed new model is compared to various state-of-the-art methods and it is showed that the proposed model can achieve higher performance. The source code is also released https://github.com/gamzeakyol/GNet.
-
ÖgeAğ iletişimlerinde temel yenilikçi çözümlerin standartlaştırılması(Lisansüstü Eğitim Enstitüsü, 2023-08-30) Kalkan, Muhammed Salih ; Seçinti, Gökhan ; 504191579 ; Bilgisayar MühendisliğiAğ iletişimlerindeki problemler oldukça eskiye dayanır. Bu problemleri çözmek için birçok çalışma yapılmıştır. Bu çalışmalar, günümüzde OSI model olarak adlandırdığımız, katmanlı bir iletişim yapısını ortaya çıkarmıştır. Bu katmanlardan birisi uygulama katmanıdır. Mesajlaşma ile ilgili problemler, bu katmana aittir. Dolayısıyla, mesajlaşma ile ilgili özellikler bu katmanda kullanılır. Bazı mesajlaşma özelliklerini standartlaştırmak için, bazı uygulama katmanı protokoller oluşturulmuştur. AMQP, MQTT vb. protokoller, uygulama katmanı protokollerine örnektir. Bu araştırmada da, temel yenilikçi çözümler uygulama katmanında değerlendirilir. Uygulamalar, mesajlaşma ile ilgili sorunları farklı şekillerde çözmektedir. Bazı özellikler uygulama koduyla, bazıları kütüphanelerle ve bazıları da protokollerle standardize edilerek sağlanır. Uygulama koduna eklenen mesajlaşma özelliklerinin her uygulama için tekrar tekrar yazılması gerekmektedir. Her uygulama için gerekli mesajlaşma özelliklerinin kodlarının tekrar tekrar yazılması, iş gücü kaybına, hata olasılığına, kodun her seferinde artan karmaşıklığına neden olur. Mesajlaşma sorunlarını kütüphane kodları ile çözmek, bu kütüphanenin diğer tüm uç noktalarla paylaşılmasını gerekli kılar. Bu nedenle mesajlaşma özelliklerinin bir protokol ile standardize edilmesi gerekmektedir. Bu çalışmada, yerel ağlarda ve IoT'de kullanılmak üzere temel yenilikçi özellikleri standartlaştırarak iş gücü kazancı sağlanması, uygulama kodunun karmaşıklığının azaltılması, çözümlerin her uç nokta için ortaklanması amaçlanmıştır. Bir protokol standardı oluşturmak için, protokollere ait özelliklerin arkaplan bilgisine ihtiyaç vardır. Bu yüzden öncelikle, ikili-metin protokoller, iletişim modelleri, merkezi-merkeziyetsiz yaklaşımlar gibi arkaplan bilgileri incelenmiştir. İkili protokoller, verileri ikili olarak ileten protokollerdir. Metin protokolleri, verileri Unicode veya ASCII olarak ileten protokollerdir. İkili protokoller, verilerin daha küçük boyutlarda iletilmesini sağladığı için performans açısından daha iyidir. Metin protokolleri, verileri daha büyük boyutlarda iletmesine karşın ikili protokollere kıyasla kolayca hata ayıklanabilir ve veriler insan tarafından okunabilirdir. Hem yüksek performans özelliği, hem verinin okunabilir olma özelliğine sahip olmak için, izleyici uç noktanın, ikili verilerin metin karşılıklarını bilmesi gerekir. Ayrıca ikili protokoller için bayt sırası (endianness) önemliyken, metin protokolleri için bayt sırası önemli değildir. Cihazın endianness tipi little-endian veya big-endian olabilir. İkili protokollerde, farklı endianness'e sahip iki cihaz iletişim kurduğunda, verilerin serileştirilmesinden önce ve verinin serisini çözümleme işleminden önce verilerin bayt adreslemesi tersine çevrilmelidir. Bu problemlerin çözümleri, uygulama katmanında standartlaştırılırsa, geliştiricilerin bu problemleri tekrar tekrar çözmeye çalışmasına gerek kalmaz. Sunucu-istemci modeli, birden fazla istemci uç noktasının tek bir sunucu uç noktasından hizmet talep ettiği bir modeldir. Yayınla-abone ol modeli, yayıncı ve abone uç noktalarının merkezi bir mesaj yönelimli ara yazılım aracılığıyla mesaj iletimlerini sağlayan bir modeldir. Uç noktalar, konulara abone olur veya mesajları yayınlar. Mesaj aracısı, yayınlanan mesajları, mesaja abone olan uç noktalara iletir. Mesaj aracısı, gevşek bağlantı ve esneklik sağlar. Uç noktalar, birbirlerinin varlığından bağımsız olarak mesajlaşmaya devam eder. Transformatörler ve filtreler, mesaj aracısı üzerinde çalışabilir. Gevşek bağlantı aynı zamanda bir dezavantajdır. Yayıncı uç noktaları, abone uç noktalarının iletişim kurup kurmadığından emin olamaz. Yayıncılar ve aboneler arttıkça, mesaj aracısını aşırı yükleyebilir. Mesaj aracısı, merkezi olduğundan darboğaza neden olabilir. Bu, yatay ölçeklenebilirliği sınırlar. İletileri doğrudan hedef uç noktalara iletmek yerine önce mesaj aracısına iletmek gecikmeyi artırır. Mesaj aracısı ile gelen bu problemlerden kurtulmak için, merkezi olmayan yayınla-abone ol modeline ihtiyaç vardır. Mesajlaşan uç noktalar için en büyük sorunlardan biri, uç noktalardan birinde mesaj yapılarının güncel olmaması veya yanlış implement edilmiş olmasıdır. Mevcut mesajlaşma protokolleri için, bir bağlantıdaki uç noktaların mesaj yapılarının uyumluluğunu kontrol etmeye yönelik standart bir yaklaşım yoktur. Bir iletişimde giden ve gelen mesajları izlemek kritik olabilir. Mesaj gönderme noktadan noktaya ise, üçüncü bir izleme uzak uç noktası iletişime dahil edilemez. IP paket başlığındaki hedef IP adresi, noktadan noktaya iletişim için tek bir cihaza ait olmalıdır. Bu problem, uygulama katmanında üçüncü uzak noktalara yönlendirme yapılarak çözülebilir. Birçok uygulama katmanı protokolü, taşıma katmanındaki bir protokole bağlıdır. Bu da gelecek kullanımları kısıtlayabilir. Örneğin, QUIC protokolü, TCP'nin yerini aldığını varsayalım. Artık TCP implementasyonlarının ortadan kalktığını varsayalım. Bu durumda, düzinelerce TCP tabanlı protokolün yeni bir sürümle QUIC tabanlı olması gerekecektir. Bu yüzden alt protokollerden soyutlanmak, gelecek kullanımlar için önemlidir. Birden çok protokol kullanmak için birden çok iletişim arabirimi oluşturulmalıdır. Ancak bir protokol, çoklu alt katman protokol ile kullanılabilir olma özelliğine sahip ise, tek bir iletişim arabirimi yeterli olacaktır. Bu çalışmada, mevcut protokollerin, bu sorunları ne kadar çözdüğüne dair veriler toplandı. Bu sorunları çözen özellikler ile mevcut protokolleri kullanarak bir tablo oluşturuldu. Diğer uygulama katmanı protokollerinin tüm bu özellikleri desteklemediği görülmektedir. Bu nedenle, bu özellikleri sağlayan yeni bir protokole ihtiyaç vardır. Bu protokolün adı mesajlaşma kontrol protokolüdür (MCP). MCP'nin hedeflediği kullanım alanı daha çok yerel ağ iletişimleridir. MCP, daha çok yerel ağ iletişimleri, asenkron iletişimler, non-stateless iletişimler ve gömülü sistemlerde kullanılabilecek özelliklere yoğunlaşmıştır. MCP'nin alt katman protokollerinden bağımsız olması için ve çoklu alt protokollerle kullanılabilmesi için MCP'nin iki bileşeni vardır: MCP Adaptörü ve iletişim arayüzü. MCP Adaptörü, MCP'nin ön koşullarını sağlamak için gereklidir. Alt protokollerin işlevlerini kullanmak için iletişim arayüzü gereklidir. Böylece MCP alt protokollerden bağımsız hale gelir ve birden fazla alt protokol ile kullanılabilir. MCP'de iki mesaj sınıfı vardır: MCP Standart Mesajı, MCP Uygulama Mesajı. MCP, MCP standart mesajları olarak adlandırılan, uygulama kodundan bağımsız yerleşik mesajlara sahiptir. 5 tür standart mesaj vardır: El Sıkışma Mesajı, Kalp Atışı Mesajı, Rol Başvuru Mesajı, Abone Olma Mesajı, Abonelikten Çıkma Mesajı. İstemciler, kullanıcı tanımlı mesajların yapılarını el sıkışma istek mesajı ile JSON formatında gönderir. Böylece uç noktaların mesaj uyumlulukları kontrol edilir. Sunucu, endianness tipini el sıkışma yanıt mesajı ile gönderir. İstemci, sunucunun endianness tipini öğrenir. İstemci ve sunucunun endianness türleri farklıysa, istemci verilerin bayt sıralamasını otomatik olarak değiştirir. Bağlantının canlı olup olmadığını tespit etmek için periyodik olarak kalp atışı mesajı gönderilir. Bir istemci, bir mesaja abone olmak için ya da bir mesajın aboneliğinden çıkmak için Abone Olma Mesajı ve Abonelikten Çıkma Mesajını kullanır. MCP uygulama mesajları, uygulama kodunda tanımlanan mesajlardır. Dört tür uygulama mesajı vardır: İstek-Yanıt Mesajı, Olay Mesajı, Başlangıç Mesajı, Rapor Mesajı. İstek-yanıt mesajları için, yalnızca ilgili istek mesajı alındığında ilgili yanıt mesajı oluşturularak iletişim sağlanır. Olay mesajları, bir olayın tetiklenmesi ile iletilir. Olay mesajları tüm bağlı abone istemcilerine gönderilir. Başlangıç mesajı, aslında bağlantı kurulduğunda tetiklenen bir olay mesajıdır. Rapor mesajı, aslında zamana göre tetiklenen bir olay mesajıdır. Yetkilendirme için rol tabanlı erişim kontrol yöntemi kullanılır. İstemcilerin MCP bağlantısında rolleri vardır. İstemcilerin rolleri, mesajlaşma arayüzündeki mesajların erişilebilirliğini belirler. Sunucu, her mesaj için hangi istemci rollerinin erişebileceğini belirler. Rollerin istemcilere atanmasını ise, admin rolündeki istemci gerçekleştirir. Noktadan noktaya iletişimde mesajları izlemek isteyen istemcilerin rolü, izleme rolüdür. İzleyici rolü, iletilerin erişilebilirliğinden bağımsızdır. Noktadan noktaya iletişimdeki tüm mesajlar monitör istemcisine iletilir. İzleme istemcisi, iletişime katılmak için bir bağlantı isteği gönderir. Monitör, bağlantı kurma aşamasında el sıkışma mesajı ile mesaj yapılarını alır ve iletişimdeki ikili verilerin metin karşılıklarını öğrenir. Böylece veriler ikili olarak iletilse de, metin olarak görüntülenebilir. Uygulama katmanında oluşturulan MCP protokolü, mesajlaşma problemlerini protokol kodunda çözerek problemlerin çözümünü standardize eder. Diğer uygulama katmanı protokolleri, MCP'nin çözdüğü tüm sorunları çözemez. Bu nedenle, MCP fark yaratır. MCP kullanılırsa, bu çalışmada belirtilen çözümlerin uygulama kodunda olmasına gerek kalmaz. Böylece uygulama kodunun karmaşıklığı azaltılmakta ve mesajlaşma özelliklerinde oluşabilecek hatalar ortadan kaldırılmaktadır. MCP sadece mesajlaşma için birçok özellik sunmakla kalmaz, aynı zamanda performansa da önem verir. Performans için, MCP dinamik başlık boyutunu kullanır ve MCP ikili protokoldür. MCP, temel mesajlaşma problemlerine odaklandığı ve performansı önemsediği için yerel ağların yanında IoT'ye de uygulanabilir. Gelecekte IoT alanında MCP'nin kullanılabilmesi için analizler yapılabilir. Sonuç olarak, MCP yenilikçi temel mesajlaşma özellikleri sağlar, bu özellikleri standardize ederek hata olasılığını azaltır ve uygulama kodunun karmaşıklığını azaltır.
-
ÖgeAkademik hukuk makalelerinde atıf önerisi(Lisansüstü Eğitim Enstitüsü, 2023-06-22) Arslan, Doğukan ; Eryiğit, Gülşen ; 504201515 ; Bilgisayar MühendisliğiHukuk ve Doğal Dil İşleme çalışmalarının kesişiminde, hukuki metinlerin anlaşılması, işlenmesi, yorumlanması ve üretilmesi gibi konulara odaklanan "Hukuki DDİ" çalışmaları yer alır ve bu çalışmalar farklı hukuki metin türleri üzerinde çeşitli alt görevlere odaklanmaktadır. Bu çalışmalardan biri de Atıf Öneri görevidir. Atıf Önerisi, bilimsel makalelerde belirli bir metin için potansiyel atıfların belirlenmesi çalışmalarını kapsar. Ancak, bu görevdeki çalışmalarda, veri kümelerinin alan bazında yeterince kapsayıcı olmaması ve alanlara dengesiz dağılması gibi sorunlar genellikle ihmal edilmektedir. Son zamanlarda yapılan bir çalışmada, bu sorunlar ele alınmış ve farklı alanları kapsayan yeni bir veri kümesi oluşturulmuştur. Ancak, hukuk gibi bazı temel alanlar hala bu tür çalışmaların dışında kalmaktadır. Bu nedenle, Atıf Önerisi gibi alt görevlerde bile, büyük veri kümeleriyle eğitilen dil modelleri, alan bazında eksiklikler gösterebilmektedir. Hukuki Doğal Dil İşleme bağlamında Atıf Önerisi, çoğunlukla mahkeme kararları gibi bilimsel olmayan hukuki metinlerden, var olan argümanları gerekçelendirmek için çeşitli atıfların elde edilmesini amaçlar. Hukuk sistemleri, Ortak Hukuk ve Kıta Avrupası Hukuk sistemi olmak üzere iki ana kategoriye ayrılabilir. Ortak Hukuk sistemine sahip ülkelerde, kararların sonuçları geçmiş davaların incelenmesiyle belirlenir ve bu nedenle kararlar arasında çok sayıda atıf bulunurken, Kıta Avrupası Hukuk sistemine sahip ülkelerde karar verme süreci daha çok olgusal kanıtlar ve ilgili kanun maddelerine dayanır. Bu da kararların kanunlara ve tüzüklere daha fazla atıf içermesine yol açar. Her iki sistemde de hukuk uygulayıcıları için emsal kararları bulmak önemlidir, ancak bu süreç zaman alıcı olabilir. Türkiye'de Yargıtay tarafından yayınlanan 7 milyondan fazla karar bulunmaktadır ve avukatlar, ilgili içtihatları aramak için önemli miktarda zaman harcamaktadır. Hukuki Atıf Önerisi görevinin halihazırdaki önemi ve faydaları, akademik hukuk metinlerinin gereken ilgiyi görmemesi ve görev kapsamına alınmamasıyla sonuçlanmıştır. Bununla birlikte, bilimsel makalelerden otomatik olarak atıf bilgisi çıkarılarak elde edilecek olan işaretli veri ile, etiketli veri oluşturmanın maliyetli olduğu Hukuki Doğal Dil İşleme görevleri için önemli bir kaynak oluşturulabilir. Bu yaklaşım, Atıf Önerisi görevinin yanı sıra emsal karar bulma, hukuki belge benzerliği ve hukuki karar tahmini gibi diğer görevlerde de etkili olabilir. Bu şekilde, akademik hukuk metinleri daha verimli bir şekilde kullanılarak daha iyi performans gösteren dil modelleri geliştirilebilir. Ayrıca, diğer bilimsel alanlardan farklı dilbilimsel özelliklere sahip olan hukuki metinler için özel bir ilgi gerekir. Geleneksel Atıf Önerisi görevinden ayrışan Hukuki Atıf Önerisi, bu özellikleri anlayabilen ve etkili atıf önerileri sunabilen dil modellerine ihtiyaç duyar. Bilimsel yayıncılığın hızlı genişlemesiyle birlikte, atıfların güvenilirliği ve kalitesiyle ilgili endişeler ortaya çıkmış ve Atıf Önerme görevi zaman içinde önem kazanmıştır. Bu görev kapsamında işbirlikçi filtreleme, çizge temelli filtreleme ve içerik temelli filtreleme gibi yöntemler kullanılmaktadır. Farklı metin türleri, haberlerden patentlere ve yargı kararlarına kadar, Atıf Önerme görevinde kullanılmıştır. Görev, önerinin kapsamına bağlı olarak da genellikle yerel ve küresel olmak üzere iki ana kategoriye ayrılır. Çeşitli akademik makale veri kümeleri, Atıf Önerme tekniklerinin geliştirilmesi ve test edilmesi için kullanılmıştır. Atıf Önerİ yöntemleri, akademik olmayan hukuki metinleri (mahkeme kararları, tüzükler, atıfta bulunulan yasalar vb.) tespit etmek amacıyla hukuk alanına uyarlanmaktadır. Bu uyarlamalar, Hukuki Atıf Önerme görevi adı altında gerçekleştirilmektedir. Tez kapsamında Hukuki Atıf Öneri görevi için, akademik hukuki makalelerden oluşan bir veri kümesi toplanmıştır. Bu veri kümesi, Atıf Önerme ve ilgili görevlerde iyi performans gösteren veya hukuk alanında eğitilmiş toplamda yedi farklı modelin test edildiği dört farklı deney düzeninde kullanılmıştır. Gerçekleştirilen deneylerde, yedi farklı model için dört farklı deney düzeni kullanılarak, önceden eğitilmiş modellerin doğrudan kullanılması, modellere ince ayar yapılması ve BM25 ile ilgili makalelerin çekilmesiyle birlikte yeniden sıralanması üzerinde çalışmalar yapılmıştır. Benimsenen iki aşamalı yaklaşım, dil modellerinin hantallığını azaltmak için BM25 gibi daha hızlı ancak daha az doğruluk gösteren modelleri kullanarak makale örneklerini hızlı bir şekilde seçmeyi amaçlar. Bu yaklaşım, bilgi getirimi çalışmalarında sistem etkinliğini artırmak için sıkça kullanılır. İlk aşamada, hızlı modellerle ilgili belgelerin örneklerini alırken, daha sonra yavaş ancak daha doğru olan modellerle bu aday makaleler yeniden sıralanır. İngilizce hukuki atıf önerme görevi için LawArXiv adlı hukuki bilimsel makaleler veritabanından makaleler indirilmiştir. Bu veritabanı, 1366 bilimsel hukuki makaleye sahip olan ve çeşitli hukuki konuları kapsayan bir kaynaktır. Makalelerin atıf yapılan kaynakları elde etmek için Google Scholar kullanılmış ve 10 binden fazla atıf içeren makale elde edilmiştir. Elde edilen makalelerin öz kısmı pdfplumber adlı bir Python paketi ile çıkarılmış, ardından başarılı bir şekilde çıkarılan İngilizce makaleler seçilmiştir. Ön işleme adımlarıyla makaleler düzenlenmiş ve öz kısımları çıkarılmıştır. Deneylerde 719 LawArXiv makalesi ve 8,887 atıf içeren 10,111 atıf bağlantısı içeren bir veri kümesi kullanılmıştır. Makalelerin öz kısımları, benzer içerik temelli küresel atıf önerme çalışmalarıyla uyumlu bir şekilde, ince ayar, temsil elde etme ve test aşamalarında girdi olarak kullanılmıştır. Veri kümesi, eğitim ve test olarak ayrılmış olup, verilerin %70'i eğitimde kullanılmış ve kalan %30'u test için ayrılmıştır. İnce ayar aşamasında üçlü kayıp fonksiyonu kullanılmıştır. Bu fonksiyon referans girdiyi (çapa) pozitif bir girdiyle (benzer) ve çapayla eşleşmeyen negatif bir girdiyle karşılaştırır. İnce ayar ve temsil elde etme adımlarından sonra, belge temsil vektörleri vektör uzayında benzerliklerine göre sıralanmıştır. Tüm eğitim ve test süreçlerinde Sentence-Transformers çerçevesi kullanılmıştır. Deneylerin sonuçları, bilgi getirimi çalışmalarında yaygın olarak kullanılan üç farklı metrik olan Mean Average Precision (MAP) (Ortalama Kesinliklerin Ortalaması), Recall (Duyarlılık) ve Mean Reciprocal Rank (MRR) (Sıralamaların Terslerinin Ortalaması) kullanılarak sunulmuştur. Bu metrikler, bir makalenin ortalama olarak 14 atıf bağlantısına sahip olduğu göz önüne alınarak, getirilen ilk 10 belge için (n=10) raporlanmıştır. Önceden eğitilmiş çeşitli modeller ve derlenen veri kümesi eğitilmiş BM25 modelinin karşılaştırması, SciBERT'in diğer modellere kıyasla en düşük performansı gösterdiği, Law2Vec ve LegalBERT gibi hukuki derlemlerle eğitilen modellerin atıf önerme görevinde başarısız olduğu, SGPT'nin ise SPECTER ve SciBERT'ten daha iyi performans gösterdiği ancak BM25'in en başarılı model olarak öne çıktığı sonucunu ortaya koymuştur. Bu sonuçlar, literatürdeki bilimsel alan temelli Atıf Önerme çalışmalarıyla da uyumludur. Önceden eğitilmiş modellere ince ayar yapıldığında elde edilen sonuçlar incelendiğinde, modellerin genel olarak benzer performans sergilediği ancak BM25'i geçemediği görülmektedir. Bununla birlikte, ince ayarlı LegalBERT modelinin performansının önemli ölçüde arttığı, modelin göreve aşinalığının alan bilgisiyle birleşmesinin performansı artırdığı gözlemlenmiştir. En başarılı modeller arasında SciNCL ve SciBERT öne çıkmaktadır, SciBERT'in performansındaki sıçrama dikkat çekicidir. Önceden eğitilmiş modellerin sıralama yeteneklerini BM25'in geri getirme kapasitesiyle birleştiren deneylerin sonuçları önceden eğitilmiş modellerin BM25'in performansını artıramadığını gösterse de, SciNCL'nin tartışmasız olarak en başarılı model olduğunu ortaya koymaktadır. BM25 ile getirilen makalelerin ince ayarlı modellerle yeniden sıralanması sonucunda, tüm ince ayarlı modellerin BM25'in performansını artırdığı gözlemlenmekte olup, SciNCL'in diğer deneylerle uyumlu olarak en başarılı model olduğu görülmektedir (0.30 MAP@10). Bu çalışmada, İngilizce Hukuki Atıf Önerisi veri kümesi oluşturulmuş ve Atıf Önerisi görevinde başarılı modeller ile alana özel eğitilmiş modellerin performansları karşılaştırılmıştır. Ayrıca, iki aşamalı bilgi getirme yöntemi kullanılmıştır. Sonuçlar, öne sürülen hipotezlerin doğruluğunu desteklemektedir. Dil modellerinin Hukuki Atıf Önerisi görevinde başarılı olabilmesi için akademik hukuk makalelerine yer verilmesi gerektiği ortaya çıkmıştır. Aynı şekilde, hukuki dokümanlarla eğitilen modellerin daha kapsayıcı olabilmesi için akademik hukuk makalelerinin de eğitim veri kümesinde bulunması gerektiği gösterilmiştir. İki aşamalı bilgi getirme yöntemi, büyük dil modellerinin ve BM25'in en iyi yönlerini birleştirerek genel performansı artırmaktadır. BM25 ile SciNCL'in birlikte kullanılması, Hukuki Atıf Önerisi görevinde en başarılı sonuçları vermektedir. Gelecek çalışmalar açısından, iki aşamalı bilgi getirme yöntemi önemli bir araştırma alanıdır. Ayrıca, elde edilen Hukuki Atıf Önerisi modelinin farklı hukuki görevlere uygulanması ve başarımlarının test edilmesi önemlidir. Veri kümesinin boyutunu artırmak için çeşitli çalışmalar da yapılabilir. Özellikle veri kümesi büyüdükçe, BM25'in hızı ve performansı daha iyi değerlendirilebilir.
-
ÖgeAn online network intrusion detection system for DDoS attacks with IoT botnet(Graduate School, 2022-05-23) Aydın, Erim ; Bahtiyar, Şerif ; 504181513 ; Computer EngineeringThe necessity for reliable and rapid intrusion detection systems to identify distributed denial-of-service (DDoS) attacks using IoT botnets has become more evident as the IoT environment expands. Many network intrusion detection systems (NIDS) built on deep learning algorithms that provide accurate detection have been designed to address this demand. However, since most of the developed NIDSs depend on network traffic flow features rather than incoming packet features, they may be incapable of providing an online solution. On the other hand, online and real-time systems either do not utilize the temporal characteristics of network traffic at all, or employ recurrent deep learning models (RNN, LSTM, etc.) to remember time-based characteristics of the traffic in the short-term. This thesis presents a network intrusion detection system built on the CNN algorithm that can work online and makes use of both the spatial and temporal characteristics of the network data. By adding two memories to the system, with one of them, the system can keep track of the characteristics of previous traffic data for a longer period, and with the second memory, by keeping the previously classified traffic flow information, it can avoid examining all of the packets with the time-consuming deep learning model, reducing intrusion detection time. It has been seen that the suggested system is capable of detecting malicious traffic coming from IoT botnets in a timely and accurate manner.
-
ÖgeArtificial intelligence based and digital twin enabled aeronautical AD-HOC network management(Graduate School, 2022-12-20) Bilen, Tuğçe ; Canberk, Berk ; 504172508 ; Computer EngineeringThe number of passengers using aircraft has been increasing gradually over the following years. With the increase in the number of passengers, significant changes in their needs have been made. In-flight connectivity (IFC) has become a crucial necessity for passengers with the evolving aeronautical technology. The passengers want to connect to the Internet without interruption regardless of their location and time. The aeronautical networks attract the attention of both industry and academia due to these reasons. Currently, satellite connectivity and air-to-ground (A2G) networks dominate existing IFC solutions. However, the high installation/equipment cost and latency of the satellites reduce their efficiency. Also, the terrestrial deployment of A2G stations reduces the coverage area, especially for remote flights over the ocean. One of the novel solutions is the Aeronautical Ad-hoc Networks (AANETs) to satisfy the IFC's huge demand by also solving the defects of satellite and A2G connectivities. The AANETs are based on creating air-to-air (A2A) links between airplanes and transmitting packets over these connections to enable IFC. The AANETs dramatically increase the Internet access rates of airplanes by widening the coverage area thanks to these established A2A links. However, the mobility and atmospheric effects on AANETs increase the A2A link breakages by leading to frequent aircraft replacement and reducing link quality. Accordingly, the mobility and atmospheric effects create the specific characteristics for AANETs. More specifically, the ultra-dynamic link characteristics of high-density airplanes create an unstructured and unstable topology in three-dimensional space for AANETs. To handle these specific characteristics, we first form a more stable, organized, and structured AANET topology. Then, we should continuously enable the sustainability and mapping of this created AANET topology by considering broken A2A links. Finally, we can route the packets over this formed, sustained, and mapped AANET topology. However, the above-explained AANET-specific characteristics restrict the applicability of conventional topology and routing management algorithms to AANET by increasing its complexity. More clearly, the AANET specific characteristics make its management challenging by reducing the packet delivery success of AANET with higher transfer delay. At that point, artificial intelligence (AI)-based solutions have been adapted to AANET to cope with the high management complexity by providing intelligent frameworks and architectures. Although AI-based management approaches are widely used in terrestrial networks, there is a lack of a comprehensive study that supports AI-based solutions for AANETs. Here, the AI-based AANET can take topology formation, sustainability, and routing management decisions in an automated fashion by considering its specific characteristics thanks to learning operations. Therefore, AI-based methodologies have an essential role in handling the management complexity of this hard-to-follow AANET environment as they support intelligent management architectures by also overcoming the drawbacks of conventional methodologies. On the other hand, these methodologies can increase the computational complexity of AANETs. At that point, we propose the utilization of the Digital Twin (DT) technology to handle computational complexity issues of AI-based methodologies. Based on these, in this thesis, we aim to propose an AI-based and DT-enabled management for AANETs. This system mainly consists of four main models as AANET Topology Formation Management, AANET Topology Sustainability Management, AANET Topology Mapping Management, and AANET Routing Management. Here, our first aim is to form a stable, organized, and structured AANET topology. Then, we will enable the sustainability of this formed topology. We also continuously map the formed and sustained AANET topology to airplanes. Finally, the packets of airplanes are routed on this formed, sustained, and mapped AANET topology. We will create these four models with different AI-based methodologies and combine all of them under the DT technology in the final step. In the Topology Formation Management, we will propose a three-phased topology formation model for AANETs based on unsupervised learning. The main reason for proposing an unsupervised learning-based algorithm is that we have independently located airplanes with unstructured characteristics in AANETs before forming the topology. They could be considered as the unlabeled training data for unsupervised learning. This management model utilizes the spatio-temporal locations of aircraft to create a more stable, organized, and structured AANET topology in the form of clusters. More clearly, the first phase corresponds to the aircraft clustering formation, and here, we aim to increase the AANET stability by creating spatially correlated clusters. The second phase consists of the A2A link determination for reducing the packet transfer delay. Finally, the cluster head selection increases the packet delivery ratio in AANET. In the Topology Sustainability Management, we will propose a learning vector quantization (LVQ) based topology sustainability model for AANETs based on supervised learning. The main reason for proposing a supervised learning-based algorithm is that we already have an AANET topology before the A2A link breakage, and we can use it in supervised learning for training. Accordingly, we can consider the clusters in AANET topology as a pattern; then, we can find the best matching cluster of an aircraft observing A2A link breakages through pattern classification instead of creating topology continuously. This management model works in three phases: winning cluster selection, intra-cluster link determination, and attribute update to increase the packet delivery ratio with reduced end-to-end latency. In the Topology Mapping Management, we will propose a gated recurrent unit (GRU) based topology mapping model for AANETs. In topology formation, we create AANET topology in the form of clusters by collecting airplanes having similar features under the same set. In topology sustainability, we sustain the formed clustered-AANET topology with supervised learning. However, these formed and sustained AANET topologies must be continuously mapped to the clustered airplanes to notify them about the current situation. This procedure could be considered a part of sustainability management. Here, we continuously notify the airplanes with GRU at each timestamp about topological changes. This management model works in two main parts ad forget and update gates. In Routing Management, we propose a q-learning (QLR) based routing management model for AANETs. For this aim, we map the AANET environment to reinforcement learning. Here, the QLR-based management model aims to let the airplanes find their routing path through exploration and exploitation. Accordingly, the routing algorithm can adapt to the dynamic conditions of AANETs. In this management model, we adapt the Bellman Equation to the AANET environment by proposing different methodologies for its related QLR components. Accordingly, this model mainly consists of two main parts current state & maximum state-action determination and dynamic reward determination. Therefore, we execute the topology formation, sustainability, and routing management modules through unsupervised, supervised, and reinforcement learning-based algorithms. Additionally, we take advantage of neural networks in topology mapping management. After managing the topology and routing of AANETs with AI-based models, in the DT-enabled AANET management, we will support them with the DT technology. The DT can virtually replicate the physical AANET components through closed-loop feedback in real-time to solve the computational challenges of AI-based methodologies. Therefore, we will introduce the utilization of DT technology for the AANET orchestration and propose a DT-enabled AANET (DT-AANET) management model. This model consists of the Physical AANET Twin and Controller, including the Digital AANET Twin with Operational Module. Here, the Digital AANET Twin virtually represents the physical environment. Also, the operational module executes the implemented AI-based models. Therefore, in this thesis, we aim to propose an AI-based and DT-enabled management for AANETs. In this management system, we will first aim to propose AI-based methodologies for AANET topology formation, topology sustainability, topology mapping, and routing issues. Then, we will support these AI-based methodologies with DT technology. This proposed complete management model increased the packet delivery success of AANETs with reduced end-to-end latency.
-
ÖgeClassification of melanoma malignancy in dermatology(Lisansüstü Eğitim Enstitüsü, 2021) Gazioğlu, Bilge Süheyla ; Kamaşak, Mustafa Ersel ; 709938 ; Bilgisayar MühendisliğiCancer has become one of the most common diseases all over the world in recent years. Approximately 40% of all incidences is skin cancer. The frequency of sightings of skin cancer has increased by 10 times in the last 50 years, and the risk of developing skin cancer is about 20%. Skin cancer has symptoms such as abnormal tissue growth, redness, pigmentation abnormalities and nonhealing wounds. Melanoma is a rare type of skin cancer with higher mortality compared to other types of skin cancers. Melanoma can be defined as a result of uncontrolled division and proliferation of melanocytes. Worldwide, melanoma is the 20th most common cancer and there are an estimated 287,723 new cases (1.6% of all cancers). In USA, more than two hundred thousand new cases of melanoma were diagnosed in 2021 and it increases more rapidly than other forms of cancer. Melanoma incidence increased up to 237% in the last 30 years. In our country, Turkey, melanoma is relatively rare compared to the other countries. Cancer cells display a rapid grow and systematic spread. As in all types of cancer, early diagnosis is of great importance for the treatment of skin cancer. Early diagnosis improves treatment success and prognosis. To detect a melanoma, changes in color, shape and structure of the skin, swelling and stains on the skin are carefully examined by the physicians. Besides the physician investigation, computer aided diagnosis (CAD) mechanisms are recommended for early diagnosis. In this thesis, deep learning models have been used to determine whether skin lesions are benign or malignant melanoma. The classification of the lesions is considered from two different points of view. In the first study, effect of objects in the image and image quality on classification performance was examined by using four different deep learning models. In addition, sensitivity of these models was tested. In the second study, it was aimed to establish a pre-diagnosis system that could help dermatologists by proposing a binary classification (benign nevi or malignant melanoma) mechanism on the ISIC dataset. In clinical settings, it is not always possible to capture flawless skin images. Sometimes skin images can be blurry, noisy, or have low-contrast. In other cases, images can have external objects. The aim of the first study is to investigate the effects of external objects (ruler, hair) and image quality (blur, noise, contrast) using widely used Convolutional Neural Networks (CNN) models. Classification performance of frequently used ResNet50, DenseNet121, VGG16 and AlexNet models are compared. Resilience of the mentioned models against external objects and image quality was examined. Distortions in the images are discussed under three main headings: Blur, noise and contrast changes. For this purpose, different levels of image distortions were obtained by adjusting different parameters. Data sets were created for three different distortion types and distortion levels. Firstly, the most common external object in skin images is hair on skin. In addition, rulers are commonly used as a scale for suspicious lesions on skin. In order to determine the effect of external objects on lesion classification, three separate test sets were created. These sets consist of images containing a ruler, hair and no external object (none). The third dataset consists only of mole (lesion) images. With the three datasets, four models were trained and their classification performances were analyzed. In fact, the best result was expected to be classified with a higher accuracy of the dataset that did not contain any object except the lesion. However, when the results are analyzed, since the image set containing hair had the highest number of images in the total dataset, the best classification performance in our system was measured by using DenseNet model on this subset. As a result of these tests, ResNet model showed a better classification performance compared to other models. Melanoma images can be better recognized under contrast changes unlike the benign images, we recommend ResNet model whenever there is low contrast. Noise significantly degrades the performance on melanoma images and the recognition rates decrease faster compared to benign lesions in noisy set. Both classes are sensitive to blur changes. Best accuracy is obtained with DenseNet model in blurred and noisy datasets. The images contain ruler has decreased the accuracy and ResNet has better performance in this set. Hairy images have the best success rate in our system since it has the maximum number of images in total dataset. We evaluated the accuracy as 89.22% for hair set, 86% for ruler set and 88.81% for none set. We can infer that DenseNet can be used for melanoma classification with image distortions and degradations. As a general result of the first study, we can conclude that DenseNet can be used for melanoma classification since it is more resistant to image distortion. In recent years, deep learning models with high accuracy values in computer aided diagnosis systems have been used frequently in biomedical image processing research area. Convolutional neural networks are also widely used in skin lesion classification to increase classification accuracy. In another study discussed in this thesis, five deep learning models were discussed in order to classify the images in the specially created skin lesions dataset. The dataset used in this study consists of images from ISIC dataset. In the dataset which is available in 2020, there are two classes of benign and malignant and three diagnosis consist of nevus, melanoma and unknown. We only considered images with nevus and melanoma diagnosis. Dataset had 565 melanoma and 600 benign lesion images in total. We separated the 115 images for the class of malignant melanoma and 120 images for the benign nevi class as our test set. The rest of the data was used for model training. With pre-processing methods such as flipping and rotation, the training dataset has divided into 5 parts and the number of images in the train set was increased. DenseNet121, DenseNet161, DenseNet169, DenseNet201, ResNet18, ResNet50, VGGNet19, VGGNet16_bn, SqueezeNet1_1, SqueezeNet1_0 and AlexNet models were trained with each subset. Using these models an ensemble system was designed. In this system, results the models were combined with the majority voting method. The accuracy of the proposed model is 95.76 % over the data set.
-
ÖgeCompression of geometry videos by 3D-SPECK wavelet coder(Lisansüstü Eğitim Enstitüsü, 2021) Bahçe Gülbak, Canan ; Bayazıt, Uluğ ; 723134 ; Bilgisayar MühendisliğiA geometry image represents a manifold surface in 3D space as an 2D array of 3D points. This involves 3 steps : First, cutting the manifold which essential defines the boundary of the square, second, defining the parametrization which defines the interior of the square and lastly, rasterizing and scan converting the geometry and applying compression to it. By representing manifold 3D objects using a global 2D parametrization (mapping) it is possible to use existing video techniques to represent 3D animations. 2D-SPECK coder, discovered by Islam and Pearlman, codes sets of DWT coefficients grouped within subbands. SPECK coder is different from the other schemes in that it does not use trees which span and also exploits the similarity accross different subbands. It makes use of sets in the form of blocks. The main idea is to exploit the clustering of energy in frequency and space in the hierarchical structures of wavelet transformed images. 3D-SPECK coder, is an extension of the 2D-SPECK algorithm for compressing 3D data with high coding efficiency. A geometry video is formed as a sequence of geometry images where each frame is a remeshed form of a frame of an animated mesh sequence. For efficiently coding geometry videos by exploiting temporal as well spatial correlation at multiple scales, this thesis proposes the 3D-SPECK algorithm which has been successfully applied to the coding of volumetric medical image data and hyperspectral image data in the past. The thesis also puts forward several postprocessing operations on the reconstructed surfaces that compensate for the visual artifacts appearing in the form of undulations due to the loss of high frequency wavelet coefficients, cracks near geometry image boundaries due to vertex coordinate quantization errors and serrations due to regular or quad splitting triangulation of local regions of large anisotropic geometric stretch. Experimental results on several animated mesh sequences demonstrate the superiority of the subjective and objective coding performances of the newly proposed approach to those of the commonly recognized animated mesh sequence coding approaches at low and medium coding rates.
-
ÖgeÇapraz e-ticaret pazarlarında hibrit öneri sistemi(Lisansüstü Eğitim Enstitüsü, 2023-08-04) Köse, Emre ; Yaslan, Yusuf ; 504181559 ; Bilgisayar MühendisliğiÖneri sistemleri, film, müzik, e-ticaret ve diğer çeşitli platformlarda, çeşitli algoritmalar kullanarak kullanıcıların ihtiyaçlarına uygun ürünlerin tavsiye edilmesini amaçlamaktadır. Bu algoritmalar genellikle kullanıcı-öğe temsillerini elde ederek öneri yapmaktadır. Çalışmalar başlangıçta matris çarpanlarına ayırma ile ilerlerken, daha sonra hem işbirlikçi hem de içerik tabanlı önerilerde farklı bellek veya model tabanlı yaklaşımlar geliştirilmiş ve geliştirilmeye devam etmektedir. Çapraz pazar öneri problemi sosyal medya, e-ticaret uygulamaları ve diğer çevrimiçi platformlarda ortaya çıkmış, farklı kaynak pazarın/pazarların verilerini kullanarak, hedef pazar olarak adlandırılan kısıtlı veri kümesinde kullanıcılara öneri amaçlayan yeni bir çalışma alanı olarak ifade edilebilir. Veriden öğrenme aşamasında dikkat edilmesi gereken bazı noktalar bulunmaktadır. Kaynak pazarların verisinden öğrenilen ve optimize edilen modeller, hedef pazarın davranışları dikkate alınmadan uygulanırsa sorunlu sonuçlar ortaya çıkabilmektedir. Örneğin giyim kategorisinin diğer kategorilere göre daha yoğun kullanıldığı bir ülke düşünelim. Bu ülkenin ortalama sıcaklığı hedef pazardan çok daha yüksekse, kaynak pazarda standart pantolon alan bir müşteriye tişört önermek mantıklı olabilir ancak bu hedef pazarda alakasız olabilir. Bu nedenle verilerden öğrenme, her iki pazardaki dağılımları ve yanlılıkları dikkate alabilen bir kapsamda olmalıdır. Çapraz pazar öneri sistemleri son yıllarda ortaya çıkmış yeni sayılabilecek bir konu olarak ifade ediliyor olsa da bahsi geçen yöntemler burada farklı şekillerde çözüm olarak kullanılabilmektedir. Literatürde, FOREC algoritması bu alanda hem getirdiği çözüm hem de sağladığı açık kaynak veri kümesi ile önemli bir çalışma olarak yer almaktadır. Pazar adaptasyonu ve meta-öğrenme kavramları üzerinde ilerlenerek, 2021 yılında yayınlanan Pazarlar Arası Ürün Önerisi araştırmasında geliştirilen çoklu ağ yapısına sahip algoritma, XMarket ismiyle 18 yerel pazarın, yani ülkenin, 16 farklı kategorideki kullanıcı-öğe ikililerini ve skorlarından oluşan veri kümesini de içermektedir. Algoritma içinde ilk olarak GMF, MLP ve NMF modellerini kullanarak pazar-bağımsız, yani kaynak ve hedef pazar verisinin birlikte kullanıldığı bir eğitim gerçekleştirilir. Bu adımda buna ek olarak MAML çerçevesi ile few-shot öğrenme tekniğini de kullanır. İkinci aşamada ise pazara-özel olarak ifade edilen sadece hedef pazar verisi ile ekstra MLP katmanları eğitilerek FOREC sistemi eğitimi tamamlanmış olur. Yapay sinir ağları milyonlarca parametre ile ürün-kullanıcı çiftleri ile beslenerek, benzerliklerini anlayabileceğimiz ve karşılaştırabileceğimiz temsiller elde edebiliyor olsa da başlangıç noktasında her bir veri örneğini, örneğin kullanıcıları (veya ürünleri) fiziksel manada yakınlıklarını temsil eden bir yapıda değildir. Bu noktada, elimizdeki veriyi kullanıcı ve ürünlerin etkileşim halinde olduğunu da düşünerek, bir çizge ağı olarak temsil etmek, bağlama farklı bir mimari ve öğrenme yöntemi olarak girebilir. Evrişimli çizge ağları, komşu birleştirme yöntemini sadeleştirilmiş bir şekilde kullanarak, derin sinir ağlarının ya da few-shot öğrenme yönteminin mimari olarak öğrenmesi mümkün olmayan farklı derinliklerdeki komşu düğüm ilişkilerinin kullanımıyla birçok pazar verisinde, tek başına diğer yaklaşımların üstünde bir performans göstererek başarılı sonuçlar alabilmektedir. Bu çalışmada çapraz marketler için geliştirilen öneri sistemi çizge yapısını kullanmaktadır. Hafif Çizge Evrişimli Ağı (LGCN) yapısı, FOREC çalışmasında olduğu gibi pazar-bağımsız ve pazara-özel adımlarla eğitilmiştir. Bu iki aşama arasında temsil aktarımını uygulayarak geliştirdiğimiz sistem daha sade bir eğitim akışından oluşmaktadır. Eğitimin ilk adımında kaynak ve hedef pazar verisindeki ikililerle oluşturulan çizge ağı yine bu iki pazarın verisiyle eğitilmiştir. Bu aşamadaki eğitim sonrası kaydedilen kullanıcı ve ürün temsilleri, ikinci adımda yeni çizge ağı oluşturulurken yeni temsillerin yarısının başlangıç noktası olarak kullanılmıştır. Temsilin diğer parçası ise pazara-özel öğrenime odaklanabilmesi için bu adımda belli bir dağılımla rastlantısal olarak başlatılmıştır. Çalışmamızda test aşamasından önce, eğitimi tamamlanan çizge ağı ile farklı pazar verilerinin ilişkilerini ve potansiyel iyileştirme noktalarını keşfedebilmek için, doğrulama verisi ile ilinti gösterebilecek farklı metriklerin incelemesi yer almaktadır. Bu metrikler aşağıda listelenmiştir. - Kullanıcıların eğitim verisindeki ürünlerine verdiği ortalama puan değeri - Kullanıcının hedef pazar eğitim kümesinde birinci dereceden kaç ürün ile etkileşimde olduğu - Kullanıcıların kaynak ve hedef eğitim kümelerindeki ikinci dereceden kaç ikiliye sahip oldukları - Derece Merkezliliği (Degree Centrality) - Yakınlık Merkezliliği (Closeness Centrality) - Düğüm Fazlalık Katsayısı (Node Redundancy Coefficient) - Kümeleme Katsayısı (Clustering Coefficient) Görüldüğü üzere bu değerler arasında ham veriden çıkarılabilen temel istatistik değerlerinin hem de iki-parçalı çizge oluşumu sonrası çıkarılabilen metrikler bulunmaktadır. Bu aşamadaki sonuçlardan elde ettiğimiz çıkarım, kullanıcıların bireysel olarak nDCG skorlarının iki-parçalı çizgeden elde edilen Düğüm Fazlalık Katsayısı ve Kümeleme Katsayısı değerlerinin, diğerlerine oranla daha fazla ilintiye sahip olduğudur. Çalışmamızın detayında bu ilinti değerlerinin gelecek çalışmalarda nasıl kullanılabileceği ile ilgili fikirlere yer verilmiştir. Deney sonuçları yedi farklı modelin sonuçlarını içermektedir. Bunların beş tanesi referans araştırması olarak düşündüğümüz FOREC çalışmasında da yer alan sonuçların bizim benzer şekilde uygulamamız sonrası elde ettiğimiz sonuçlardır. Diğer iki model ise bu problem için geliştirdiğimiz sistemin ilk adımındaki pazar-bağımsız adımın sonucu, diğeri ise iki-aşamanın eğitimi sonrası elde ettiğimiz nihai hibrit LGCN model sonucudur. Bahsedilen sonuçlar pazarların ikili olarak eğitimini ve sonucunu içeren deneylerdir. Yani, FOREC çalışması yedi hedef pazarı üzerinden sonuçları her bir pazar için geriye kalan diğer altı pazarı tekli olarak kaynak pazar olarak kullanır ve eğitimlerini buna göre gerçekleştirerek sonuçlarını alır. Biz de referans noktası olarak düşündüğümüz FOREC çalışmasına benzer şekilde eğitimlerini ilerlettiğimiz sistemimizde, bu hedef pazarların içinden seçtiğimiz dört tanesini alarak ilerledik. Bunlar Almanya, Japonya, Meksika ve İngiltere pazar verileridir. Buna ek olarak Amerika pazarının verisi sadece kaynak veri olarak deneylerde yer almıştır. İki aşamalı yaklaşımımız ile farklı hedef pazarlar için %5 ve %8'lik bir aralıkta FOREC'in tüm sonuçlarından daha iyi sonuçlar elde ettiğimiz gözlemlenmiştir. Buna ek olarak, ilk adımdan sonra uyguladığımız pazara-özel eğitimin sonuçların iyileşmesinde %1 ile %2 oranında katkı sağladığı açığa çıkmıştır. Sonuç olarak, bu çalışmada çapraz pazarlar için iki aşamalı çizge sinir ağı ile öğrenilen model önerilmiş ve başarımları bu alanda yüksek sonuç verdiği gözlemlenen FOREC algoritması ile karşılaştırılmıştır. Önerilen model farklı hedef pazarlarında nDCG@10 değerlendirme metriği kullanıldığında FOREC algoritmasından daha iyi sonuçlar vermektedir.
-
ÖgeDinamik ortamlar için istatiksel metotlar kullanan çoklu evrimsel algoritmalar(Lisansüstü Eğitim Enstitüsü, 2022-09-19) Gazioğlu, Emrullah ; Uyar, Ayşe Şima ; 504152518 ; Bilgisayar MühendisligiGerçek dünyada karşılaştığımız birleşimsel (ing: combinatorial) optimizasyon problemleri doğası gereği dinamik bir yapıya sahiptir. Dinamik ortamlarda bulunması gereken optimum nokta zamanla değişeceğinden, sezgisel yaklaşımlar ancak bu ortamlara iyi adapte edilirse başarılı olabilir. Çevresel değişiklik, optimizasyon algoritmalarının her iki tarafında da (kısıtlar ve/veya amaç fonksiyonu) meydana gelebilir. Değişikliği ele almanın en basit yolu, algoritmayı yeniden başlatmaktır. Ancak, yeni optimal çözüm öncekinden çok uzak olmayabilir. Bu nedenle, yeniden başlatma fikri kullanışlı değildir. Bunun yerine, şimdiye kadar edinilen bilgiler mevcut ortama uyum sağlamak için faydalı olabilir. Bu uyarlamayı gerçekleştirmek için bazı dinamik ortam kriterleri dikkate alınmalıdır: (i): değişim sıklığı, (ii): değişikliğin şiddeti, (iii): döngü uzunluğu/döngü doğruluğu, (iv): değişimin öngörülebilirliği. Yukarıda bahsedilen problemleri ele alabilmek için literatürde hem deterministik hem de sezgisel yöntemler kullanılmıştır. Bu yöntemler yetersiz kalınca Metasezgisel algoritmalar kullanılmaya başlanmıştır. Genetik Algoritmalar, Metasezgisel algoritmaların, Evrimsel Algoritmalar alt sınıfına düşen ve türlerin doğadaki biyolojik evriminden ilham alan çok popüler optimizasyon algoritmalarıdır. GA'lar, literatürdeki büyük başarılarına rağmen, değişen ortamlarda genetik çeşitliliklerini kaybederler. Bunun nedenleri olarak şunları söyleyebiliriz: (i): faydalı çözümleri kaybetmek ve (ii): problemin değişkenleri arasındaki ilişkileri kullanamamak. Bu tezde, birinci sorun için, bir çoklu kromozom yapısı uygulanarak bir örtük bellek şeması geliştirilmiştir. İkinci sorun için, problemin değişkenleri (bir kromozomdaki genler olarak da bilinir) arasındaki ilişkilerden yararlanmak için bir Bayes Ağı kullanımıştır. Epistasis, gerçek biyolojik hayatta bir kromozomdaki genlerin etkileşimi anlamına gelir. Daha açık olarak, bir genin etkisi, başka bir genin/genlerin varlığına veya yokluğuna bağlıdır. Bu tezde, genlerin etkileşimlerinden faydalanmak için, çoklu gösterilimin yanı sıra, iyi bilinen bir Dağıtım Tahmini Algoritması olan Bayesçi Optimizasyon Algoritması, önerilen algoritmaya enjekte edilmiştir. Bu tezde, dinamik ortam optimizasyon problemleri ile baş edebilmek için GA tabanlı istatistiksel metotlar kullanan çok kromozomlu bir algoritma önerilmiştir. İlk olarak, örtük bir bellek şeması elde etmek için GA'ya çoklu gösterilim eklenmiştir. Genetik operatörler örtük bellek üzerinde icra edilirken uygunluk değeri hesaplamaları çözüm adaylarının fenotipleri üzerinden yürütülmüştür. Ayrıca, önerilen algoritmanın varyantları literatürde önceden tanıtılmış olan bazı göçmenlik yöntemleri kullanılarak oluşturulmuş, farklı parametre değerleri ile nasıl davrandıkları gözlenmiştir. Önerilen algoritmayı test etmek için üç farklı problem çözülmüştür: Ayrıştırılabilir Birleşim Tabanlı Fonksiyonlar, Dinamik Sırt Çantası Problemi ve Çok boyutlu Sırt Çantası Problemi. Ayrıştırılabilir Birleşim Tabanlı Fonksiyonlar, çeşitli karmaşıklık düzeyleri içerdikleri için dinamik optimizasyon problemlerinde sıkça kullanılan kıyaslama problemleridirler. Bu fonksiyonlarda her bir çözüm adayı dört bitlik bölümlere ayrılır ve her bölümün uygunluk değerleri ayrı ayrı hesaplandıktan sonra bulunan değerler toplanıp çözüm adayının genel uygunluk değeri bulunur. Sırt Çantası Problemi, bilgisayar bilimlerinde sıkça karşılaşılan bir problem formatıdır. Bu problemde, pahada (getirisi) ağır, yükte hafif nesnelerin toplanması hedeflenmekte ve bunu yaparken getiriyi maksimuma çıkarırken yükü minimumda tutmaya çalışılır. Gerçek dünya problemleri üzerindeki etkilerini görmek için bu problemin dinamik versiyonu çözüldü. Finansal yönetim ve endüstride, birçok gerçek dünya sorunu bu problem ile ilgilidir. Örneğin, kargo yükleme, üretim planlaması, sermaye bütçelemesi, proje seçimi ve portföy yönetimi bu problem ile çözülebilen örneklerdir. Çok boyutlu Sırt Çantası Problemi, normal versiyonundan farklı olarak, birden fazla kaynak içeren ve her bir kaynağın kendine ait kısıtları olan versiyonudur. Bu problem, tek bir kısıt yerine kaynak sayısı kadar kısıt olduğundan çözülmesi daha zordur. Yukarıda bahsedilen problemleri çözmek için iki farklı dinamik ortam yöntemi kullanılmıştır. Bunlardan birincisi XOR jeneratörü, diğer ise Normal Dağılım metotu ile yeni veri setleri oluşturmaktır. Sonuç olarak, bu tezde, dinamik optimizasyon problemlerini çözmek için hem istatistiksel bir yöntem hem de örtük bir bellek şeması kullanan bir GA önerilmiştir. Önerilen yöntemin dinamik ortamlardaki davranışını izlemek için üç farklı problem çözülmüştür. Daha sonra performansı literatürdeki en yeni bir yöntem ile karşılaştırılmıştır. Sonuçlar, önerilen yöntemin dinamik optimizasyon problemlerini çözmede oldukça etkili olduğunu göstermiştir.
-
ÖgeDirectional regularization based variational models for image recovery(Graduate School, 2022-08-19) Türeyen Demircan, Ezgi ; Kamaşak, Mustafa E. ; 504152509 ; Computer EngineeringThis thesis explores how local directional cues can be utilized in image recovery. Our intent is to provide image regularization paradigms that encourage the underlying directionalities. To this end, in the first phase of the thesis work, we design direction-aware analysis-based regularization terms. We boost the structure tensor total variation (STV) functionals used in inverse imaging problems so that they encode directional priors. More specifically, we suggest redefining structure tensors to describe the distribution of the ``directional" first-order derivatives within a local neighborhood. With this decision, we bring direction-awareness to the STV penalty terms, which were originally imposing local structural regularity. We enrich the nonlocal counterpart of the STV in the same way, which were additionally imposing nonlocal image self-similarity beforehand. These two types of regularizers are used to model denoising and deblurring problems within a variational framework. Since they result in convex energy functionals, we also develop convex optimization algorithms by devising the proximal maps of our direction-aware penalty terms. With these contributions in place, the major barrier in making these regularizers applicable lies in the difficulty of estimating directional parameters (i.e., the directions/orientations, the dose of anisotropy). Although, it is possible to come across uni-directional images, the real-world images usually exhibit no directional dominance. It is easy to precisely estimate the underlying directions of uni-directional (or partially directional) images. However, arbitrary and unstable directions call for spatially varying directional parameters. In this regard, we propose two different parameter estimation procedures, each of which employs the eigendecompositions of the semi-local/nonlocal structure tensors. We also make use of total variation (TV) regularization in one of the proposed procedures and a filterbank of anisotropic Gaussian kernels (AGKs) in the other. As our image regularization frameworks require the guidance of the directional parameter maps, we use the term ``direction-guided" in naming our regularizers. Through the quantitative and the visual experiments, we demonstrate how beneficial the involvement of the directional information is by validating the superiority of our regularizers over the state-of-the-art analysis-based regularization schemes, including STV and nonlocal STV. In the second phase of the thesis, we shift our focus from model-driven to data-driven image restoration, more specifically we deal with transfer learning. As the target field, we choose fluorescence microscopy imaging, where noise is a very usual phenomenon but data-driven denoising is less applicable due to lack of the ground-truth images. In order to tackle this challenge, we suggest tailoring a dataset by handpicking images from unrelated source datasets. This selective procedure explores some low-level view-based features (i.e., color, isotropy/anisotropy, and directionality) of the candidate images, and their similarities to those of the fluorescence microscopy images. Based upon our experience on the model-driven restoration techniques, we speculate that these low-level characteristics (especially directions) play an important role on image restoration. In order to encourage a deep learning model to exploit these characteristics, one could embed them into the training data. In fact, we establish the possibility of offering a good balance between content-awareness and universality of the model by transferring only low-level knowledge and letting the unrelated images bring additional knowledge. In addition to training a feed-forward denoising convolutional neural network (DnCNN) on our tailored dataset, we also suggest integrating a small amount of fluorescence data through the use of fine-tuning for better-recovered micrographs. We conduct extensive experiments considering both Gaussian and mixed Poisson-Gaussian denoising problems. On the one hand, the experiments show that our approach is able to curate a dataset, which is significantly superior to the arbitrarily chosen unrelated source datasets, and competitive against the real fluorescence images. On the other hand, the involvement of fine-tuning further boosts the performance by stimulating the content-awareness, at the expense of a limited amount of target-specific data that we assume is available.
-
ÖgeEffect of semi-supervised self-data annotation on video object detection performance(Graduate School, 2022-06-22) Akman, Vefak Murat ; Töreyin, Behçet Uğur ; 704191017 ; Computer SciencesAccess to annotated data is more crucial than ever when deep learning frameworks replace traditional machine learning methodologies. Even if the method is robust, training performance can be inadequate if the data has poor quality. Some methods were developed to address data-related issues. These methods, however, have a negative impact on algorithm complexity and processing cost. Errors related to human factors, such as misclassification or inaccurate labeling, should also be considered. Multiple steps in the data annotation process cost time and money. These steps can be listed as follows. Data gathering, annotation and formatting according to deep learning model architecture. Unfortunately, these steps are still not fully set to a standard and the whole process comes with a lot of difficulties. In this study, the effect of semi-supervised data annotation on video object detection is analysed by using the Soft Teacher algorithm. Soft Teacher is a Swin-Transformer backboned semi-supervised learning method which has a major advantage on overcoming limited data. Swin Transformer is a type of vision transformer. It creates hierarchical feature maps by merging image patches in deeper layers and has linear computation complexity to input image size. As a such, it can be used as a general-purpose backbone for tasks like classification and object detection. In Soft Teacher, there are two types of models; the Student model and the Teacher model. The Teacher model performs pseudo-labeling on weak augmented unlabeled images and the Student model is trained on both labelled and strong augmented unlabeled images while updating the Teacher model. Soft Teacher model was trained with open-source COCO data set that consists of 80 labels. The data set contains 118287 train, 123403 unlabeled and 5000 validation images, was created by the human. The Soft Teacher was trained with percent of 1, 5, 10 and 100 labelled data respectively. Then, using those trained Soft Teacher models, new data was created from the same raw data and some of the state-of-the-art object detection algorithms were trained with newly annotated data. To compare results, these object detection models were also trained with manual annotated data. The model trained with human data was shown to be less successful than the other in terms of mAPs. However, the model that was trained with self annotated data produced more false positives. Because, the trained model can perform mislabeling when generating new data. In conclusion, the results suggest that semi-supervised data annotation degrades the detection performance in expense of huge amounts of training time savings.
-
ÖgeEtmen tabanlı bir anlamsal süreç çalışma ortamının geliştirilmesi(Lisansüstü Eğitim Enstitüsü, 2021) Kır, Hüseyin ; Erdoğan, Takuhi Nadia ; 672532 ; Bilgisayar MühendisliğiKurumsal bilişim sistemleri alanı, uzun bir süre boyunca, kurumsal veriyi merkeze alan ve onun yönetimine odaklanan veri odaklı bilişim sistemleri tarafından hükmedilmiştir. Fakat zamanla bilginin de diğer üretim enstrümanları gibi kurumların hedeflerine ulaşmak için tükettikleri ve ürettikleri ara ürünler olduğu, asıl odaklanılması gereken bakış açısının üretimi sağlayan işlevler olduğu algısı yaygınlaşmaya başlamıştır. Bu yaklaşım ile, kurumsal veri/bilgi önemini korurken, merkeze iş süreçleri alınarak iş süreci yönetim sistemleri (İSYS) ortaya çıkmıştır. İSYS'ler kurumsal işleyişi temsil eden süreç modellerini girdi olarak alan ve katılımcıların eş güdümlü bir şekilde çalışmasını sağlayarak üretim süreçlerinin etkinliğini ve üretkenliğini arttırmayı hedefleyen genel yazılım sistemleridir. Bu sistemler zamanla gelişerek tüm süreç yaşam döngüsünü (tasarım, işletim, izleme, analiz ve iyileştirme) destekleyecek işlevselliklere erişmiştir. Geleneksel olarak İSYS'ler yönetmelikler ile detaylı bir şekilde tanımlanmış, öngörülebilen ve tekrarlanabilen süreçlerin modellenmesine ve işletilmesine odaklanmıştır. Bu süreçlerdeki olası tüm iş akışları tamamen bilinmektedir ve süreç katılımcılarının verebileceği kararlar önceden öngörülmektedir. Halihazırda, bu tür süreçler kurumsal süreçlerin büyük çoğunluğunu oluşturmaktadır. Ne var ki, kurumların %16'sı önceden öngörülemeyen olaylardan dolayı iş süreçlerini anlık olarak değiştirmek zorunda kaldıklarını, %10'u ise bazı süreçlerinin günlük olarak değiştiğini belirtmektedir. Aslen bu süreçler, mevcut İSYS'lerin yönetmekte yetersiz kaldığı, bilgi yoğun ve sanatsal süreçlerdir. Bilgi yoğun süreçler (BYS), yürütülmesi ve yönetilmesi çeşitli bilgi güdümlü karar verme görevlerini yerine getiren bilgi çalışanlarına bağlı olan süreçlerdir. Bu süreçler genelde üst seviyede bir iş akışına sahiptirler ama bu akışın detayları, dolaylı bir şekilde, sadece iş uzmanı tarafından bilinmektedir. Bu süreçler, formal bir süreç modeli ile ifade edilememekle beraber çoğu zaman yazılı bile değillerdir. Bilgi yoğun süreçlere örnek olarak enerji uzmanının bir hidroelektrik santrali projesini değerlendirme süreci örnek verilebilir. İş uzmanı, sunulan yapılabilirlik çalışmasının değerlendirilmesi, kamulaştırmaların gerekliliği ve uygunluğu, beklenen üretim projeksiyonlarının gerçekçiliği ve talep ile tutarlılığı gibi bir çok tecrübeye dayalı incelemeyi, duruma göre diğer iş uzmanlarına da (hukuk, planlama vb.) danışarak, süreci ilerletmektedir. Sürecin akışı tamamen anlık ihtiyaçlar doğrultusunda, iş uzmanının tecrübesi ile ortaya çıkmaktadır ve her değerlendirme süreci farklı bir akışa sahip olabilmektedir. Süreç yönetimi araştırma alanı, gelecekte sanal organizasyonların kurulacağı, dünyanın farklı yerlerindeki birbirini tanımayan insanların aynı sürece dahil olarak işbirliği içerisinde üretim yapabilecekleri bir geleceği hayal etmektedir. Yaşamakta olduğumuz Covid-19 pandemi süreci de bu eğilimi hızlandırarak, uzaktan birlikte çalışmayı bir zorunluluk haline getirmiştir. Bunun sonucunda, mevcut altyapıların desteklemediği, zorlu bilgi yoğun senaryolarda da süreç odaklı yaklaşımların uygulanması bir zorunluluk olmuştur. Günümüz İSY sistemlerinin bilgi odaklı süreç yönetimi hedefini hayata geçirebilmek için işbirliği, uyarlanabilirlik ve bağlam farkındalık gibi kavramların üzerine yoğunlaşması gerekmektedir. Bunun için, mevcut İSYS'lerin, bir dizi yeni gereksinimi desteklemeye başlaması gerekmektedir. Genel olarak bu gereksinimler: tüm kurumsal ortam, veri ve kuralların modellendiği bir kurumsal bilgi tabanının geliştirilmesi ve bu bilgi modeli üzerinde bilgi ile tetiklenen, kurallar ile şekillenen, organizasyon hedeflerine hizmet eden, dinamik işbirliklerinin yapılabildiği bir çalışma ortamının oluşturulması şeklinde özetlenebilir. Bu yöndeki araştırmalar ise hala, büyük oranda, akademik seviyededir ve sadece akıllı hata kotarma problemine odaklanmış durumdadır. Ayrıca, bu çalışmaların kurumsal standartlardan uzak oluşları ve uygulanabilirliklerindeki zorluklardan dolayı endüstriyel kullanımı yaygınlaşamamıştır. Tez çalışması kapsamında geliştirilen yöntem yüksek değişkenliğe sahip bilgi yoğun iş süreçlerinin yönetimi için üç hipotezi temel almaktadır. İlk olarak, süreç tasarımı sadece görev ve kontrol akışlarının modellenmesi ile sınırlı değildir, süreç uzayını oluşturan veri, kural, hedef, iş ortamı ve iş akış perspektiflerinin bütüncül bir şekilde ele alınması gerekmektedir. İkinci olarak, kapsüllemeyi ve bileşenleştirmeyi sağlamak için, süreç işletimleri, kurumsal bilgiyi güncelleyen görev akışları ile değil, her biri kendi hedefleri, inanışları, kararları ve yaşam döngüsü olan etkileşimli özerk varlıklar (akıllı yazılım etmenleri) üzerinden yönetilmelidir. İSY sistemlerinin nihai hedefi, iş akışlarının eş güdümünü sağlamaktan, iş uzmanlarının karar verme süreçlerine yardımcı olmaya doğru evrilmektedir. Bu doğrultuda, üçüncü hipotez olarak, bilgi çalışanlarının uzmanlıklarının en azından bir kısmı dijitalleştirilmeli ve özerk yazılım vekilleri tarafından yerine getirilmelidir. Bu amaçla, iki aşamalı bir yaklaşımla, tüm İSY yaşam döngüsünü destekleyen bir çözüm önerilmiştir. İlk olarak, iş süreçleri, kurumsal bilgi yönetimi ve çoklu etmen sistemleri modelleme paradigmalarını ve tasarım bileşenlerini kusursuz bir biçimde tümleştiren ve bir arada modellenmelerine olanak tanıyan, tümleşik bir modelleme metodolojisi geliştirilmiştir. Arttırımlı bir şekilde geliştirilen modeller organizasyon, iş ortamı, kurumsal stratejiler, işlevsellikler ve kısıtları anlamsal bir şekilde tanımlamakta ve kurumsal bilgi modelini oluşturmaktadır. Bu modellerin tasarımında, endüstride ve etmen tabanlı yazılım mühendisliğinde kullanılan standartlar ve en iyi uygulamalar, mümkün olduğunca yeniden kullanılarak, gerçek hayat problemlerinde kolay bir şekilde uygulanabilir olması hedeflenmiştir. Tez çalışmasının ikinci aşamasında, etmenlerin çalışma zamanında özerk bir şekilde hedefe yönelik ve bilgi odaklı davranış uyarlamaları yapmasına olanak tanıyan bir çoklu etmen tabanlı süreç işletim ortamı geliştirilmiştir. Geliştirilen bilgi modelini kullanan etmenler bilişsel yetenekler (hedef güdümlü planlama, kural uyumluluk, bilgi güdümlü davranışlar ve dinamik işbirlikleri gibi) sergileyerek, bilgi çalışanlarının karar verme süreçlerini desteklemeye çalışmaktadır. Bu amaçla, iş uzmanlarının karar verme yöntemlerinden esinlenerek geliştirilen buluşsal planlama yaklaşımı ile sergilenecek eylemlere çalışma zamanında, yeni bilgiler ortaya çıktıkça adım adım karar verilmekte ve hedefler ile gerçekler arasındaki boşluk kapatılmaya çalışılmaktadır. İş uzmanlarının hedefe yönelik davranış seçimi, süreç kalitesinin değerlendirilmesi, kurallara uygunluğun kontrolü, hata yönetimi ve dinamik müzakere ve işbirliği yetenekleri dijitalleştirilerek, etmenler tarafından yerine getirilebilir hale getirilmiştir. Bu sayede çalışma zamanında süreçlerin dinamik bir şekilde uyarlanabilmesi ve anlık etkileşimler ile yeniden şekillenerek organizasyon hedeflerine ulaşabilmesi sağlanmıştır. Gerçekleştirilen deneysel çalışmalar ile, süreç işletimi için yeterli kaynaklara sahip bir ortamda, tez kapsamında geliştirilen çerçevenin rastgele oluşturulan çalışma zamanı hatalarını başarılı bir şekilde kotarabildiğini ortaya koymuştur. Literatürdeki mevcut çalışmalar ile karşılaştırıldığında, geliştirilen sistemin, bilgi yoğun süreç yönetim sistemlerinin temel gereksinimlerinin büyük bir çoğunluğunu sağlayan, literatürdeki en kapsamlı çözüm olduğu ortaya konmuştur.
-
ÖgeFace recognition and person re-identification for person recognition( 2020) Başaran, Emrah ; Kamaşak, Mustafa Ersel ; Gökmen, MUhittin ; 629137 ; Bilgisayar Mühendisliği ; Computer EngineeringYüz tanıma ve kişinin yeniden tanınması (KYT) uygulamalarına, bireysel ve toplumsal güvenlik, adli vakalar ve eğlence başta olmak üzere, birçok farklı alanda ihtiyaç duyulmaktadır. Yüz görüntüleri, kişi teşhisi için, zengin ve oldukça ayırt edici özellikler barındırmaktadır. Bunun yanında, yüz görüntülerinin temas ve iş birliği olmaksızın elde edilebilir olması, yüz tanıma uygulamalarının, iris ve parmak izi gibi diğer biyometrik tanımlayıcıları kullanan uygulamalara göre daha geniş bir uygulama sahasına sahip olmasına sebep olmaktadır. KYT probleminde ise, biyometrik tanımlayıcılardan ziyade, tüm vücut görüntüleri kullanılmaktadır. Bu problemde, temel olarak, farklı kameralar tarafından kaydedilen kişi görüntülerinin eşleştirilmesine çalışılmaktadır. Yüz görüntülerinin elde edilemediği veya görüntülerin yüz tanıma yapılabilecek seviyede kaliteye sahip olmaması gibi durumlarda, KYT, kişi teşhisi için önemli bir yöntemdir. Tez kapsamında, öncelikle, kişi teşhisi için son derece önemli olan yüz tanıma problemi ele alınmaktadır. Daha sonra, KYT problem için özgün yöntemler önerilmektedir. Bu çalışmada, KYT problemi iki farklı şekilde incelenmektedir. Bunun sebebi, KYT için en önemli ipuçlarını barındıran renk bilgisinin zayıf aydınlatılmış veya karanlık ortamlarda kaydedilen görüntülerden elde edilemediği zaman, KYT' nin farklılaşması ve daha da zorlu bir problem haline gelmesidir. Gerçekleştirilen çalışmaların ilkinde, görünür etki alanında elde edilen RGB görüntüler kullanılmaktadır. İkincisinde ise, RGB görüntüler ile birlikte kızılötesi görüntülerde kullanılarak karşıt etki alanında KYT problemi incelenmektedir. Bilimsel yazında gerçekleştirilen çalışmalarda, yüz tanıma problemi, genel olarak kimlik saptama ve kimlik doğrulama olmak üzere iki farklı şekilde ele alınmaktadır. Hem saptama hem de doğrulama için geliştirilen yüz tanıma sistemlerinin en önemli kısmı ise, yüz görüntüleri için betimleyicilerin nasıl oluşturulacağıdır. Yüz tanıma performansı, büyük oranda bu betimleyicilerin kalitesine bağlıdır. Bu tezin yüz tanıma problemi ile ilgili olan bölümünde, güçlü betimleyiciler elde edebilmek için, temel olarak yerel Zernike momentleri (YZM) kullanılarak geliştirilen gözetimsiz öznitelik çıkarma yöntemleri önerilmektedir. İlk olarak, bütünsel yüz görüntülerinden öznitelik çıkarımı üzerine odaklanılmıştır. Geliştirilen yöntemde, iki farklı şekilde yerel öznitelikler açığa çıkarılmaktadır. İlkinde, art arda iki kez uygulanan YZM dönüşümü sonucunda elde edilen karmaşık örüntü haritaları üzerinde faz-genlik histogramları (FGH) oluşturulmaktadır. İkincisinde ise, gri seviye histogramlar kullanılmaktadır. Bu histogramlar, yerel Xor operatörü ile YZM örüntü haritalarının kodlanması sonucunda üretilen gri seviye görüntüler üzerinde oluşturulmaktadır. Hem FGH' ler hem de gri seviye histogramlar, alt bölgelere ayrılmış bütünsel yüz görüntülerinin alt bölgelerinde ayrı ayrı hesaplanmaktadır. Ardından, her bir örüntü haritasından elde edilen tüm histogramlar art arda birleştirilerek öznitelik vektörleri oluşturulmaktadır. Son aşamada ise, bu vektörlerin boyutları indirgenmektedir. Önerilen yöntemde, boyut indirgeme işlemi için, Beyazlatılmış Temel Bileşenler Analizi (BTBA) kullanılmakta ve blok tabanlı bir yöntem izlenmektedir. Öncelikle, alt bölgeler bir araya getirilerek bloklar oluşturulmaktadır ve ardından bu bloklardan elde edilen öznitelik vektörlerinin boyutları ayrı ayrı indirgenmektedir. Kullanılan bu yöntemlerin yüz tanıma performansı üzerindeki etkileri ve elde edilen başarılar, Face Recognition Technology (FERET) veriseti kullanılarak ortaya konmuştur. Tez kapsamında gerçekleştirilen yüz tanıma ile ilgili çalışmaların ikinci bölümünde ise, öznitelik çıkarımının nirengi noktaları etrafında gerçekleştirildiği başka bir yöntem önerilmektedir. Bu yöntemde, nirengi noktaları etrafından yamalar çıkarılmaktadır ve öznitelik vektörlerinde kullanılan FGH' ler bu yamaların alt bölgelerinde hesaplanmaktadır. Yüz görüntülerinin hem yerel hem de bütünsel bilgilerini içeren öznitelikler elde etmek amacıyla, yöntem içerisinde bir görüntü piramidi kullanılmaktadır. Piramit içerisindeki görüntülerin YZM örüntü haritalarından ayrı ayrı öznitelikler çıkarılarak çok ölçekli betimleyiciler elde edilmektedir. Ardından, görüntü piramidinden elde edilen öznitelikler art arda birleştirilerek, her bir nirengi noktası için ayrı bir öznitelik vektörü oluşturulmaktadır. Son aşamada ise, vektörlerin boyutları, BTBA kullanılarak ayrı ayrı indirgenmektedir. Önerilen yöntemin performansını test etmek amacıyla, FERET, Labeled Faces in the Wild (LFW) ve Surveillance Cameras Face (SCface) verisetleri kullanılmıştır. Elde edilen sonuçlar önerilen yöntemin aydınlatma, yüz ifadesi ve poz gibi değişikliklere karşı dayanıklı olduğunu ortaya koymaktadır. Bunun yanında, yöntemin, kontrolsüz ortamlarda veya kızılötesi tayfta elde edilen düşük çözünürlüklü yüz görüntüleri üzerindeki başarısı da gösterilmektedir. Kişilerin yeniden tanınması (KYT) problemi, arka plan dağınıklığı, poz, aydınlatma ve kamera bakış açısı değişimleri gibi faktörlerden dolayı oldukça zorlu bir iştir. Bu unsurlar, güçlü ve aynı zamanda ayırt edici öznitelikler çıkarma sürecini ciddi oranda etkileyerek, farklı kişilerin başarılı bir şekilde ayırt edilmesini zorlaştırmaktadırlar. Son yıllarda, KYT üzerinde gerçekleştirilen çalışmaların büyük bir çoğunluğu, bahsedilen unsurlar ile başa çıkabilecek yöntemler geliştirmek için, derin öğrenme yöntemlerinden yararlanmaktadır. Genel olarak bu çalışmalarda, kişi görüntüleri için öğrenilen gösterimlerin kalitesi, vücut parçalarından yerel öznitelikler çıkarılarak artırılmaya çalışılmaktadır. Vücut parçaları ise, sınırlayıcı kutu tespit etme yöntemleri ile tespit edilmektedir. Bu tezde, KYT problemi için, derin öğrenme yöntemleri kullanılarak geliştirilen bir yöntem önerilmektedir. Bu yöntemde, diğer çalışmalarda olduğu gibi, vücut parçalarından yerel öznitelikler elde edilmektedir. Fakat, parçalar tespit edilirken, sınırlayıcı kutular yerine anlamsal ayrıştırma kullanılmaktadır. Vücut görüntülerinin anlamsal olarak ayrıştırılması, piksel seviyesindeki doğruluğu ve rastgele sınırları modelleyebilmesi nedeniyle, sınırlayıcı kutu tespit etme yöntemine göre doğal olarak daha iyi bir alternatif olmaktadır. Önerilen yöntemde, anlamsal ayrıştırma KYT problemi için etkin bir şekilde kullanılarak, deneylerin yapıldığı verisetleri üzerinde bilinen en yüksek performansa ulaşılmaktadır. Anlamsal bölütlemenin yanı sıra, Inception ve ResNet gibi yaygın olarak kullanılan derin öğrenme mimarilerinin KYT problemi için daha verimli bir şekilde eğitilmesini sağlayan bir eğitim yöntemi de önerilmektedir. Yöntemlerin başarısı, Market-1501, CUHK03 DukeMTMC-reID verisetleri üzerinde gerçekleştirilen deneyler ile gösterilmektedir. Bu tez kapsamında gerçekleştirilen diğer bir çalışma ise, görünür-kızılötesi karşıt etki alanında KYT (GK-KYT) problemidir. GK-KYT problemi, zayıf aydınlatılmış veya karanlık ortamlarda gözetim işleminin gerçekleştirilebilmesi için son derece önemlidir. Son yıllarda, görünür etki alanında gerçekleştirilen birçok KYT çalışması bulunmaktadır. Buna karşın, bilimsel yazında, GK-KYT ile ilgili çok az sayıda çalışma gerçekleştirilmiştir. KYT' de var olan poz/aydınlanma değişimleri, arkaplan karmaşası ve kapanma gibi zorluklara ek olarak kızılötesi görüntülerde renk bilgisinin olmaması, GK-KYT' yi daha zorlu bir problem haline getirmektedir. Sonuç olarak, GK-KYT sistemlerinin performansı tipik olarak KYT sistemlerinden daha düşüktür. Bu tezde, GK-KYT' nin performansını iyileştirmek için 4 akışlı bir yöntem önerilmektedir. KYT ile ilgili gerçekleştirilen çalışmalarda olduğu gibi, GK-KYT için de derin öğrenme tekniklerinden yararlanılmıştır. Önerilen yöntemin her bir akışında, giriş görüntülerinin farklı bir gösterimi kullanılarak ayrı bir derin evrişimli sinir ağ (DESA) eğitilmektedir. Bu şekilde, her bir akıştaki DESA modelinin farklı ve aynı zamanda tamamlayıcı öznitelikler öğrenmesi amaçlanmaktadır. Yöntemin ilk akışında, gri-seviye ve kızılötesi giriş görüntüleri kullanılarak bir DESA modeli eğitilmektedir. İkinci akıştaki giriş görüntüleri ise, RGB görüntüler ve kızılötesi kanalın tekrarlanmasıyla oluşturulan 3-kanallı kızılötesi görüntülerdir. Diğer iki akışta ise, giriş görüntüsü olarak, YZM dönüşümü ile elde edilen yerel örüntü haritaları kullanılmaktadır. Bu örüntü haritaları, üçüncü akışta, gri-seviye ve kızılötesi görüntülerden, son akışta ise, RGB ve 3-kanallı kızılötesi görüntülerden elde edilmektedir. Son adımda ise, bilimsel yazında önerilen bir yeniden sıralama algoritmalası kullanılarak görüntüler arasındaki uzaklık hesaplanmaktadır. SYSU-MM01 ve RegDB verisetleri üzerinde gerçekleştirilen deneyler ile, önerilen yöntemin başarısı ortaya konmuştur.
-
ÖgeFight recognition from still images in the wild(Graduate School, 2022-06-22) Aktı, Şeymanur ; Ekenel, Hazım Kemal ; 504191539 ; Computer EngineeringViolence in general is a sensitive subject and can have a negative impact on both the involved people and witnesses. Fighting is one of the most common types of violence which can be defined as an act where individuals intend to harm each other physically. In daily life, these kinds of situations might not be faced too often, however, the violent content on social media is also a big concern for the users. Since violent acts or fights in particular are considered as an anomaly or intriguing for some, people tend to record these scenes and upload them on their social media accounts. Similarly, news agencies also regard them as newsworthy material in some cases. As a result, fighting scenes become available on social media platforms frequently. Some users may be sensitive to these kinds of media content and children who can be harmed due to the aggressive nature of the fight scenes also uses social media. These facts make it necessary to detect and put limitations on the distribution of violent content on social media. There are some systems focusing on violence and fight recognition on visual data. However, these works mostly propose methods on different domains for violence such as movies, surveillance cameras, etc., and the social media case remains unexplored. Furthermore, even if most of the fight scenes shared on social media are in video sequences, there is also a non-ignorable amount of image data depicting violent fighting. However, no work tackles the fight recognition from still images instead of videos. Thus, in this thesis, the problem of fight recognition from still images is investigated. In this scope, first, a novel dataset was collected from social media images which is named Social Media Fight Images (SMFI). The dataset was collected from Twitter and Google images and some frames were included from the video dataset of NTU CCTV-Fights. The fight samples were chosen among the samples which are recorded in uncontrolled environments. In order to crawl a large amount of data, different keywords were used in various languages. The non-fight samples were also chosen among the data crawled from social media in order to keep the domain consistent across the classes. The dataset is made publicly available by sharing the links to the images. For the classification of the Social Media Fight Images dataset, some image classification methods were applied to the dataset. First, Convolutional Neural Networks (CNN) were employed for the task and their performance was assessed. Then, a recent approach, Vision Transformer (ViT) was exploited for the classification of the fight and non-fight images. The comparison showed that the Vision Transformer gives better results on the dataset achieving a higher accuracy with less overfit. A further experiment was also held on investigating the effect of varying dataset sizes on the performance of the model. This was seen as necessary as the data shared on social media may be deleted in the future and it is not always possible to retrieve the whole dataset. So, the model was trained on different partitions of the dataset and the results showed that even if using more data is better, the model could still give satisfying performance even in absence of 60% of the dataset. Upon the successful results on fight recognition on still images problem, another experimental study was conducted on the classification of video-based datasets using a single frame from each sample. The experiment included four video-based fight datasets and results showed that three of them could be successfully classified without using any temporal information. This indicated that there might be a dataset bias for these three datasets where the inter-class visual difference is high across the classes. Cross-dataset experiments also supported this hypothesis where the trained models on these video datasets perform poorly on the other fight recognition datasets. Nonetheless, the network trained on the proposed SMFI dataset gave a promising accuracy on other datasets as well, showing that the dataset generalizes the fight recognition problem better than the others.
-
ÖgeGeneralized multi-view data proliferator (gem-vip) for boosting classification(Graduate School, 2022-08-08) Çelik, Mustafa ; Rekik, Islem ; 504131531 ; Computer EngineeringMulti-view network representation revealed multi-faced alterations of the brain as a complex interconnected system, particularly in mapping neurological disorders. Such rich data representation maps the relationship between different brain views which has the potential of boosting neurological diagnostic tasks. However, multi-view brain data is scarce and generally is collected in small sizes. Thus, such data type is broadly overlooked among researchers due to its relatively small size. Despite the existence of data proliferation techniques as a way to overcome data scarcity, to the best of our knowledge, multi-view data proliferation from a single sample has not been fully explored. Here, we propose to bridge this gap by proposing our GEneralized Multi-VIew data Proliferator (GEM-VIP), a framework aiming to proliferate synthetic multi-view brain samples from a single multi-view brain to boost multi-view brain data classification tasks. For the given Connectional Brain Template (i.e., represents an approximation of brain graphs that captures the unique connection shared by a population's subjects), we set out the proliferate synthetic multi-view brain graphs using the inverse of multi-variate normal distribution (MVND). However, one needs two crucial components, which are the mean an the covariance of a given population. As such, first, our proposed GEM-VIP framework obtains a population-representative tensor (i.e., drawn from the prior CBT) which can be mathematically regarded as a mean of the population. Second, drawing inspiration from the genetic algorithm paradigm our proposed GEM-VIP learns the covariance matrix of the population using the given CBT. Lastly, it proliferates synthetic samples using the earlier obtained representative tensor and created covariance matrix of the population on the MVND equation. We evaluate our GEM-VIP against several comparison methods. The results show that our framework boosts the multi-view brain data classification accuracy of AD/ lMCI and eMCI/ normal control (NC) datasets. In short, our GEM-VIP method boosts the diagnoses of the neurological disorders.
-
ÖgeHeuristic algorithms for solving chemical shift assignment problem in protein structure determination(Lisansüstü Eğitim Enstitüsü, 2021) Yılmaz Maden, Emel ; Uyar Etaner, Ayşe Şima ; Güntert, Peter, ; 709824 ; Bilgisayar MühendisliğiHeuristic algorithms have been widely used in several different hard optimization problems not only in computer science but also in several other disciplines, including natural sciences, bioinformatics, electronics, and operational research, where computational methods are needed. Heuristic algorithms search for optimal solutions by maximizing or minimizing the given objectives depending on the need while satisfying the given conditions. Heuristic algorithms find solutions in a huge search space where many different possible solution candidates exist. Due to these conditions of the search space, systematic search techniques are not feasible for such kinds of problems. In this thesis, we applied several different heuristic approaches and their combinations on the chemical shift assignment problem of the Nuclear Magnetic Resonance (NMR) spectroscopy. NMR spectroscopy is one of the methods to determine the three-dimensional structure of proteins. The three-dimensional structure of proteins provides crucial information to detect the shape, structure and function of biological macromolecules. The protein structure also demonstrates the function of proteins by illustrating the interactions of the macromolecules with other proteins or small ligands. Therefore, the three-dimensional structure of a protein can form a basis for drug design against human diseases. NMR has many advantages compared to other techniques; however, NMR spectroscopy needs very advanced computational techniques for providing the protein structure. The chemical shift assignment of the atoms is one of the most challenging problems in NMR spectroscopy. It needs a considerable amount of time by an experienced spectroscopist if the determination is done manually or by a semi-automated method. Additionally, even if the remaining parts of the structure determination methods work perfectly, it is impossible to create the protein structure if the chemical shift assignments are not done correctly. Due to this complexity, the total number of protein structures obtained from NMR spectroscopy is very few compared to its alternative methods, such as X-ray crystallography. Due to its importance in NMR experiments, the chemical shift assignment problem has recently become one of the most critical research areas in the computational techniques of NMR spectroscopy. There have been many types of research on this problem; however, they are far from perfect. Some of these techniques can provide only partial solutions by assigning only the backbone atoms or only the sidechain atoms. Some of these methods require a very long computation time. Additionally, the results of many of the existing methods have a great area for improvement. In this thesis, we developed a novel method with the heuristic algorithms that provides a fully automatic assignment of the chemical shift values of NMR experiments. First, we studied the background of the problem along with the existing methods. Secondly, we proposed our methods that solve the problem with evolutionary algorithms. Thirdly, we performed experiments on several different datasets, compared the success of our methods against the state-of-the-art solutions of the problem, and continuously improved our methods. Finally, we performed further analysis on the results and proposed further work. First, the background of the chemical shift assignment problem is comprehensively studied from the computer science point of view. The optimization processes in heuristic algorithms, stochastic local search methods, iterative improvement, simple stochastic local search methods, hybrid, and population-based stochastic local search methods are discussed in detail. The ant colony optimization and the evolutionary algorithms are analyzed as the population-based stochastic local search methods. After these evaluations, the evolutionary algorithms appeared to be a suitable candidate for solving this problem since they already work with a population, which is a set of solution candidates. We also analyzed the NMR spectroscopy hardware, principles, and experiment steps in detail because the problem is a real application from NMR spectroscopy in natural sciences. Furthermore, we had a deep dive into the chemical shift assignment problem and into the protein structure and peptide formation areas, which are the basis for the NMR spectroscopy calculations. Afterwards, the existing methods for solving this problem are discussed with their drawbacks. Secondly, we proposed our methods for solving the problem with heuristic algorithms. Our method comprises several different evolutionary algorithms and their combinations with hill climbing, with each other, and constructive heuristic methods. More conventional approach genetic algorithm, GA, and multi-objective evolutionary algorithms, NSGA2 and NSGA3, are applied to the problem. The multi-objective evolutionary algorithms investigated each objective parameter separately, whereas the genetic algorithm followed a conventional way, where all objectives are combined in one score function. While defining the methods, we first defined the problem model, along with the existing conditions and the score function. We modeled the problem as a combinatorial optimization problem, where expected peaks are mapped onto the measured peaks. The chromosome of the algorithm is an array of the expected peaks and the values inside represent their mapped measured peaks. The objectives of the problem are defined in a score function. The constraints are not separately evaluated because they are already fulfilled by the problem model implicitly. Additional fine-tuning and changes are implemented on the algorithms to apply the NMR-specific behaviors to the problem model. Then, the following improvements are realized on the algorithms: We optimized the probability of applying crossover and mutation in the methods. The population initialization is optimized with a constructive initialization algorithm, which minimizes the search space to find better initial individuals. Furthermore, we optimized the population's diversity to find the optimum solutions by escaping from local optima. We also implemented hybrid algorithms by combining a hill-climbing algorithm with our proposed algorithms. Thirdly, we performed experiments on several datasets with a set of commonly used spectra. We also compared the results of our methods with the two state-of-the-art algorithms: FLYA and PINE. In almost all of these datasets, our algorithm GA yielded better results than PINE. Our algorithm NSGA2 produced better results than PINE in almost half of the datasets. Our NSGA3 algorithm yielded less than 10% correct assignments because only two objectives out of four objectives of our problem model create trade-off. NSGA3 algorithms are known to be successful on problems with more than three objectives. Additionally, our algorithms had better runtime performance than FLYA in more than half of the datasets. Our algorithms could assign all of the atoms in all datasets, which creates a huge completeness success of the problem, whereas FLYA and PINE algorithms could not provide a complete assignment. Furthermore, we observed in our results that splitting a large protein into smaller fragments improved our algorithms' results dramatically. Finally, we performed further analysis on our results. These analyses showed us that our algorithms often assigned different atoms than FLYA and PINE. Primarily the GA algorithm can provide good results on some parts of datasets where the state-of-the-art algorithms cannot make any assignment. In order to leverage this success of our algorithms, we proposed a hierarchical method. This method combines FLYA and our algorithm GA to benefit from the different success factors of each algorithm. The results showed that this approach improved the overall success of the algorithms. In future work, the three algorithms could be combined to achieve better results. Additionally, one can focus on distinguishing atoms that can be assigned consistently and more reliably than others. The assignment is only tentative so that fewer wrong assignments are done. Furthermore, the objective function of the problem can be remodeled to improve the performance of the algorithms. Additionally, our method can be extended in further work so that large proteins are split into smaller fragments before applying our algorithms, which will improve the overall results. In this thesis, we successfully implemented a fully automatic algorithm for solving the chemical shift assignment problem of NMR spectroscopy. Our method can automatically assign a significant part of the sidechain and backbone atoms without any parameter changes or manual interactions. We produced results that are comparable to the two very well know state-of-the-art algorithms. Our approaches could provide around a 70% success rate on these datasets and assign many atoms that other methods could not assign. Our algorithm outperformed at least one of these two state-of-the-art methods almost in all of our experiments. Additionally, the whole methods are implemented on the MOEA framework, enabling the further implementation of new algorithms easily.
-
ÖgeHierarchical deep bidirectional self-attention model for recommendation(Graduate School, 2023-05-02) İşlek, İrem ; Öğüdücü Gündüz, Şule ; 504162502 ; Computer EngineeringThis study proposes a bidirectional recommendation model to tackle the user cold start problem. We can predict the middle item when a user has only a few user-item interactions and enrich their interaction set accordingly. By recursively repeating this process, we can obtain enough interactions to make accurate item recommendations to the user. For instance, a user may buy a few items from an e-commerce site but also purchase other items from elsewhere, leading to incomplete information about their preferences. The proposed bidirectional recommendation model can fill the user's interaction history gaps, enabling accurate item recommendations even with limited data. In this thesis, we aimed to develop a recommendation system that imitates the behavior of today's e-commerce users' online purchasing experience. Our approach emphasized practicality, as we aimed to create a system that could be implemented easily in real-world e-commerce platforms. In doing so, we focused on developing an approach that could handle a large number of users and items found on such platforms while still maintaining high performance. By prioritizing these factors, we aimed to create a recommendation system that could be effectively applied in real-world scenarios. For future work, exploring combinations of the suggested algorithms for both layers would be worthwhile. Furthermore, examining the impact of algorithms proposed for the first layer or the user's shopping history enrichment algorithm on different recommendation systems would be beneficial. Ultimately, the most significant improvement is the application of proposed hierarchical recommendation network to cross-domain recommendation problems.
-
ÖgeHybrid reciprocal recommendation with advanced feature representations(Graduate Institute, 2021) Yıldırım, Ezgi ; Öğüdücü, Şule ; 674767 ; Department of Computer EngineeringOver the last few decades, with the rise of online web services such as Facebook, Amazon, and Netflix, Recommender Systems (RecSys) have taken an indisputable place in our daily lives. The application domain of RecSys has an extensive range from e-commerce to online advertisement that aims to suggest to users the right contents matching their preferences, and it is not limited to one-way interacting platforms. In some challenging application domains, RecSys are developed to serve multiple users at each decision, to mutually satisfy the accompanying parties. Where a matching problem occurs and the satisfaction of both parties is the key to success, those recommender systems are called Reciprocal Recommenders (Rec2) in literature. Differing from traditional one-directional recommendation problems, the reciprocal recommendation has more adversity to overcome, which outlines its characteristics. In this study, based on gradual research, we first seek the key points of a strong recommender system, and then, by the learned lessons from this part, focus on the reciprocal recommendation. For this purpose, we first seek answers to these questions in a general recommender system: • How can auxiliary data affect recommendation quality? • How can we easily integrate different data sources and different approaches to empower a recommender system? Then, in the second part, we shift our research focus towards reciprocal recommendation and try to answer the following research questions: • How can we effectively solve reciprocal recommendation problems without detriment to system performance? • How can we avoid vagueness of recommendations and explain conceptual associations of requested and offered characteristics? In recent years, deep learning has gained indisputable success in computer vision, speech recognition, and natural language processing. After its rising success in these challenging areas, it has been studied on recommender systems as well, but mostly to include content features into traditional methods. In the initial part of this thesis, we introduce a generalized neural network-based recommender framework that offers an easy-to-use platform to combine different data sources, approaches, and methods into a single recommender system. This framework, Neural Hybrid Recommender (NHR), also allows us to exploit the same data sources to find out more elaborate information by different learning functions. In our experiments, we have worked on item prediction problems, however, with a single change on the loss function, the framework can be used for rating prediction problems as well. To evaluate the effect of such a framework, we have tested our approach on benchmark and not yet experimented datasets; movie reviews and job applications of job-seekers from an online recruitment platform. The results in these real-world datasets show the superior performance of our approach in comparison with the state-of-the-art deep learning methods in Click-Through-Rate (CTR) prediction. With the use of auxiliary data in different forms, NHR models perform better than collaborative filtering methods that depend on interaction data only. On the movie recommendation task, based on the average of a group of experiments, NHR models achieve 2.03% relative improvements on HR@10 score and 2.51% on NDCG@10 over the most successful baseline used in the evaluation. With the same setup, the improvements on the job recommendation task become even higher; 2.60% and 2.91% on HR@10 and NDCG@10, relatively. Having more promising results on job recommendation with auxiliary data is since this task is far more complex than the movie recommendation task due to the multi-variate socio-economic dependencies in job applications. Our further experiment that investigates the effect of predictive factors, which define the predictive capability in neural networks, also verifies that. Increasing the model complexity without changing the other parameters did not deteriorate the success of models in job recommendation because complex problems are less prone to over-fit, which can usually result from high model complexity. In the latter part of this thesis, we propose a multi-objective learning approach for online recruiting. Online recruiting and online dating are the most known reciprocal recommendation problems. However, the reciprocal recommendation has gained little attention in the literature due to the lack of public datasets. We aim to resolve this shortage in our study. Since the satisfaction of both candidates and companies is indispensable for successful hiring as opposed to traditional recommenders, online recruiting should respect to expectations of all parties and meet their common interests as much as possible. For this purpose, we integrated our multi-objective learning approach into various state-of-the-art methods, whose success has been proven on similar prediction problems, and we achieved encouraging results. We propose one of the prominent architectures as a prototype of our multi-objective learning approach, however, our approach applies to any recommender system employing neural networks as its final decision-maker. Our multi-objective prototype has achieved 12.15% lower LogLoss and 6.37% higher AUC than its single-objective counterpart. Besides the predictive performance, our multi-objective approach has reduced the training and testing times by half. This speedup contributes to overcoming the time constraint that complex models suffer from, so critical in the era of deep learning. Furthermore, our prototype offers explainable recommendations thanks to its Factorization Machines (FM) component. Since explainability has recently gained importance with the global changes and for ethical reasons, we have paid special attention to the selection of our base model for prototyping. Consequently, our prototype offers the reasoning behind the recommendations, so that companies can use it when requested or needed. The explainable recommendation can create a transparent hiring process and so a fair and trustworthy environment for job-seekers. This can increase the turnover rate of users and thereby help to alleviate sparsity.
-
ÖgeHybridization of probabilistic graphical models and metaheuristics for handling dynamism and uncertainty(Graduate School, 2021-06-30) Uludağ, Gönül ; Etaner Uyar, Ayşe Şima ; 504072510 ; Computer EngineeringSolving stochastic complex combinatorial optimisation problems remains one of the most significant research challenges that cannot be adequately addressed not only by deterministic methods but also by some metaheuristics. Today's real-life problems in a broad range of application domains from engineering to neuroimaging are highly complex, dynamic, uncertain, and noisy by nature. Such problems cannot be solved in a reasonable time because of some properties including noisy fitness landscape, high non-linearities, large scale, high multi-modality, computationally expensive objectives functions. The environmental variabilities and uncertainties may be occurred in the problem instance, the objective functions, the design variables, the environmental parameters, and the constraints. Thus, the variations and uncertainties may be due to a change in one or more of these components over time. It is commonly informed that the environmental dynamism is classified based upon the change frequency, predictability, and severity as well as whether it is periodic or not. Different types of variations and uncertainties may arise over time due to the dynamic nature of the combinatorial optimisation problem, and hence an approach chosen at the start of the optimisation may become inappropriate later on. It is expected that such search methodologies for the time-variant problems would be capable of adapting to the change not only efficiently but also quickly, as well as handling the uncertainty such as noise and volatility. On the other hand, it is crucial to identify and adjust the values of numerous parameters of the metaheuristic algorithm while balancing two contradictory criteria: exploitation (i.e., intensification) and exploration (i.e., diversification). Therefore, the self-adaptation is a critical parameter control strategy in metaheuristics for time-variant optimisation. There exists lots of study concerning time-variant problem to handle dynamism and uncertainty, yet a comprehensive approach to address different variations at once still seems to be a task to accomplish. The ideal strategies should take into consideration both environmental dynamism and uncertainties, whereas conventional approaches; however, problems are postulated as time-invariant and disregard this variability and uncertainties. Meanwhile, each real-world problem exhibits different types of changes and uncertainties. Thus, solving such complex problems remains extremely challenging due to the variations, dependencies, and uncertainties during the optimisation process. Probabilistic graphical models are the principal probabilistic model for which a graph expresses the conditional dependence structure to represent complex, real-world phenomena in a compact fashion. Hence, they provide an elegant language to handle complexity and uncertainty. Such properties of probabilistic graphical models have led to further developments in metaheuristics that can be termed probabilistic graphical models-based metaheuristic algorithms. Probabilistic graphical model-based metaheuristic algorithms are acknowledged as highly self-adaptive, and thus able to handle different types of variations. There is a range of probabilistic graphical model-based metaheuristic approaches, e.g., variants of estimation of distribution algorithms suggested in the literature to address dynamism and uncertainty. One of the remarkable state-of-the-art continuous stochastic probabilistic graphical model-based metaheuristic approaches is the covariance matrix adaptation evolution strategy. The covariance matrix adaptation evolution strategy approach and its variants (e.g. covariance matrix adaptation evolution strategy with the increasing population; Ipop-CMA-ES) have become a sophisticated adaptive uncertainty handling scheme. The characteristics of these approaches make them more plausible for handling uncertainty and rapidly changing variations. In recent years, the concept of semi-automatic search methodologies called hyper-heuristics has become increasingly important. Many metaheuristics operate directly on the solution space and utilize problem domain-specific information. However, hyper-heuristics are general methodologies that explore over the space formed by a set of low-level heuristics that perturb or construct a (set of) candidate solution(s) to make self-adaptive decisions for dynamic environments to deal with computationally difficult problems. Besides several impressive research studies that have been carried out on variants of probabilistic graphical model-based metaheuristic algorithms, there also exist many extensive research studies that have been working on machine learning-based optimisation approaches. One of the most popular such methods is the expectation-maximization algorithm, which is a widely used scheme for the optimisation of likelihood functions in the presence of latent (i.e., hidden) variables models. Expectation-maximization is a hill-climbing approach to finding a global maximum of a likelihood function that required achieving convergence to global optima in a reasonable time. One of the extremely challenging dynamic combinatorial optimisation problems is the unit commitment problem, which in the engineering application domain. The unit commitment problem is considered as an NP-hard, non-convex, continuous, constrained dynamic combinatorial optimisation problem in which turn-on/off scheduling of power generating resources is utilized over a given time horizon to minimize the joint cost of committing and de-committing. Another such problem is effective connectivity analysis, which is one of the neuroimaging application areas. The predominant scheme of inferring (i.e., estimating) effective connectivity is dynamic causal modelling, provides a framework for the analysis of effective connectivity (i.e., the directed causal influences between brain areas) and estimating their biophysical parameters from the measured blood oxygen level-dependent functional magnetic resonance responses. However, although, different kinds of metaheuristic- or machine learning-based algorithms have become more satisfying within different types of dynamic environments, neither metaheuristic- nor machine learning-based algorithms are capable of consistently handle the environmental dynamism and uncertainty. In this sense, it is indispensable to hybridize metaheuristics with probabilistic or statistical machine learning to utilize the advantages of both approaches for coping with such challenges. The main motivation of hybridization is to exploit the complementary aspect of different methods. In other words, hybrid frameworks are expected to benefit from the synergy effect. The design and development of hybrid approaches are considered to be promising due to their success in handling variations and uncertainties, and hence, increased attention in recent years has been focused on the fields of metaheuristics and their hybridization. Intuitively, the central idea behind such an approach is based on the two principal theories of the "no free lunch theorem" perspectives: one for supervised machine learning, and one for search/optimisation. Within the context of no free lunch theorem perspective, the following hybrid frameworks are addressed: (i) In the case of no free lunch theorem for search/optimisation, utilize machine learning approaches to enhance metaheuristics; (ii) In the case of no free lunch theorem for machine learning, utilize metaheuristics to improve the performance of machine learning algorithms. Within the scope of this dissertation, each proposed hybrid framework is built on the corresponding "no free lunch theorem" perspective. The first introduced hybrid framework is designed on the no free lunch theorem for search/optimisation concept, referred to as hyper-heuristic-based, dual population estimation of distribution algorithm (HH-EDA2). Within this notion, especially probabilistic model-based schemes are employed to enhance probabilistic graphical model-based metaheuristics that utilize the synergy of selection hyper-heuristic schemes and dual population estimation of distribution algorithm. HH-EDA2 is the form of a two-phase hybrid approach that performs offline and online learning schemes to handle uncertainties and unexpected variations of combinatorial optimisation problems regardless of their dynamic nature. The important characteristic feature of this framework is to integrate any multi-population estimation of distribution algorithms with any probabilistic model-based approach selection hyper-heuristic into the proposed approach. The performance of the hybrid HH-EDA2 along with the influence of different heuristic selection methods was investigated over a range of dynamic environments produced by a well-known benchmark generator as well as over unit commitment problem, which is known as NP-hard constrained combinatorial optimisation problem as a real-life case study. The empirical results show that the proposed approach outperforms some of the best-known approaches in the literature on the non-stationary environment problems dealt with. The second proposed hybrid framework is designed on the no free lunch theorem for machine learning, referred to as Bayesian-driven covariance matrix adaptation evolution strategy with an increasing population (B-Ipop-CMA-ES). Within this notion, especially probabilistic model-based metaheuristics are employed to enhance probabilistic graphical models that utilize the synergy of covariance matrix adaptation evolution strategy algorithm and expectation-maximization schemes. This hybrid framework performs the estimation of biophysical parameters of effective connectivity (i.e., dynamic causal modelling) that enable one to characterize and better understand the dynamic behaviour of the neuronal population. The main attestation of the B-Ipop-CMA-ES is to get rid of crucial issues of dynamic causal modelling, including prior knowledge dependence, computational complexity, and a tendency of getting stuck on local optima. B-Ipop-CMA-ES is capable of performing physiologically plausible models while converging to the global solution in computationally feasible time without relying on initial prior knowledge of biophysical parameters. The performance of the B-Ipop-CMA-ES framework was investigated on both synthetic and empirical functional magnetic resonance imaging datasets. Experimental results demonstrate that B-Ipop-CMA-ES framework outperformed the reference (expectation-maximization/Gauss-Newton) and other competing methods.
-
ÖgeIdentification of object manipulation anomalies for service robots(Lisansüstü Eğitim Enstitüsü, 2021) Altan, Doğan ; Uzar Sarıel, Sanem ; 709912 ; Bilgisayar MühendisliğiRecent advancements in artificial intelligence have resulted in an increase in the use of service robots in many domains. These domains include households, schools and factories to facilitate daily life in domestic tasks. Characteristics of such domains necessitate the intense interaction of robots with humans. These interactions necessitate extending the abilities of service robots to deal with safety and ethical issues. Since service robots are usually assigned to complex tasks, unexpected deviations of task state are highly probable. These deviations are called anomalies, and they need to be continually monitored and handled for robust execution. After an anomaly case is detected, it should be identified for effective recovery. For the identification task, a time series analysis of onboard sensor readings is needed since some anomaly indicators are observed long before the detection of the anomaly. These sensor readings need to be fused effectively for correct interpretations as they are generally taken asynchronously. In this thesis, the anomaly identification problem of everyday object manipulation scenarios is addressed. The problem is handled from two perspectives by considering the feature types that are processed. Two frameworks are investigated: the first one takes into account domain symbols as features while the second framework considers convolutional features. Chapter 5 presents the first framework to address this problem by analyzing symbols as features. It combines and fuses auditory, visual and proprioceptive sensory modalities with an early fusion method. Before they are fused, a visual modeling system generates visual predicates and provides them as inputs to the framework. Auditory data are fed into a support vector machine (SVM) based classifier to obtain distinct sound classes. Then, these data are fused and processed within a deep learning architecture. The architecture consists of an early fusion scheme, a long short-term memory (LSTM) block, a dense layer and a majority voting scheme. After the extracted features are fed into the designed architecture, the occurred anomaly is classified. Chapter 6 presents a convolutional three-stream anomaly identification (CLUE-AI) architecture that fuses visual, auditory and proprioceptive sensory modalities. Visual convolutional features are extracted with convolutional neural networks (CNNs) from raw 2D images gathered through an RGB-D camera. These visual features are then fed into an LSTM block with a self-attention mechanism. After attention values for each image in the gathered sequence are calculated, a dense layer outputs the attention-enabled results for the corresponding sequence. Mel frequency cepstral coefficients (MFCC) features are extracted from the auditory data gathered through a microphone in the auditory stage. This is followed by feeding these auditory features into a CNN block. The position of the gripper and the force applied by it are also fed into a designed CNN block. These resulting sensory modalities are then concatenated with a late fusion mechanism. Afterward, the resulting feature vector is fed into fully connected layers. Finally, the anomaly type is revealed. The experiments are conducted on real-world everyday object manipulation scenarios performed by a Baxter robot equipped with an RGB-D head camera on top and a microphone placed on the torso. Various investigations including comparative performance evaluations, parameter and multimodality analyses are studied to show the validity of the frameworks. The results indicate that the presented frameworks have the ability to identify anomalies with f-scores of 92% and 94%, respectively. As these results indicate, the CLUE-AI framework outperforms the other in classifying occurred anomaly types. Due to the requirements that the frameworks necessitate, the CLUE-AI framework does not require additional external modules such as a scene interpreter or a sound classifier as the other one does and provides better results compared to the symbol-based solution.