FBE- Bilgisayar Mühendisliği Lisansüstü Programı
Bu topluluk için Kalıcı Uri
Bilgisayar Mühendisliği Ana Bilim Dalı altında bir lisansüstü programı olup, yüksek lisans ve doktora düzeyinde eğitim vermektedir.
Lisansüstü eğitiminde uzmanlık alanları:
Bilgisayar Ağları,
Yapay Zeka,
Doğal Dil İşleme,
Paralel ve Dağıtık Sistemler.
Gözat
Yazar "Akgün, Barış" ile FBE- Bilgisayar Mühendisliği Lisansüstü Programı'a göz atma
Sayfa başına sonuç
Sıralama Seçenekleri
-
ÖgeApache Spark Tabanlı Destek Vektör Makıneleri İle Akan Büyük Veri Sınıflandırma(Fen Bilimleri Enstitüsü, 2016-06-16) Akgün, Barış ; Öğüdücü, Şule ; 10112653 ; Bilgisayar Mühendisliği ; Computer EngineeringKlasik veri analizi yöntemlerinde, verilerin herhangi bir veri merkezinde toplanması ve veri madenciliği yöntemleri ile analiz edilerek anlamlı sonuçların çıkarılması gerekmektedir. Son yıllarda, gerek sosyal ağların gerek ise makinelerin ürettikleri veri miktarları çok ciddi boyutlardadır. Üretilen büyük miktardaki verileri saklamak yüksek maliyetli olmakla beraber bu denli büyük miktarda veriyi biriktirerek analiz etmek yine aynı şekilde ciddi zaman gerektirmektedir. Günümüz rekabet ortamında bir saniyenin dahi önemi oldukça büyüktür. Öyle ki sosyal ağlarda bir saniyede firmanız hakkında binlerce yorum yapılırken sizin buna sessiz kalmanız ciddi sonuçlara sebebiyet verecektir. Tüm bu ihtiyaçlar veri analizinin, biriktirilen veriler üzerinden değil verinin geldiği anda anlık veri üzerinden yapılması gerekliliğini doğurmuştur. Anlık veri üzerinden yapılan çalışmalar bilişim dünyasında akan veri analizi başlığı altında toplanmaktadır. Sınıflandırma yöntemleri, veri madenciliği yöntemleri içinde en yaygın olarak kullanılan yöntemlerden bir tanesidir. Hemen her sektörde sınıflandırma problemlerine rastlamak mümkündür. Sınıflandırma problemlerinin çözümü için kullanılan algoritmaların başında, yüksek doğruluk oranı ve düşük kod karmaşıklığı ile Lojistik Regresyon (LR) ve yüksek doğruluk oranı ile Destek Vektör Makineleri (DVM) gelmektedir. Akan veri analizi yöntemlerinde en çok aranan özellik, gelen anlık verinin boyutuna bakılmaksızın olabildiğince hızlı olarak analiz edilebilmesidir. Bu sebebten LR ve DVM yöntemleri akan veri sınıflandırma problemi için de son derece uygundur. Çalışmanın amacı büyük akan veri problemleri çözümü için sıklıkla kullanılan Apache Spark Streaming teknolojisi üzerine DVM sınıflandırma yöntemini geliştirmektir. Geliştirilen DVM çözümünün hali hazırda var olan LR yöntemi ile karşılaştırarak hangi yöntemin akan büyük veri sınıflandırmada daha etkin olduğunu bulmak ise çalışmanın bir diğer amacıdır. Yapılan çalışmada öncelikli olarak, kullanılan sahtecilik veri kümesi için LR ve DVM yöntemlerinin başarımlarını analiz etmek adına birikmiş veri üzerinden SAS ürünü kullanılarak deneyler yapılmıştır. Bunun yanı sıra LR performansını arttırabilmek adına Stepwise yöntemi kullanılarak ek deneyler yapılmıştır. DVM ve LR yöntemlerinin başarımlarını incelemek için ROC değerleri ve çalışma süreleri ele alınmıştır. Akan veri analizi yöntemleri için bahsedildiği üzere doğruluk kadar çalışma zamanı da önemli bir performans metriğidir. Yapılan deneylerde karşılaşılan problemlerin başında SAS ile tek makine de yapılan analizlerin büyük veri kümesi üzerinde bellek yetersizliği sebebi ile sonlanamaması gelmektedir. İlgili problemi çözmek adına veri kümeleri özellik seçimi yöntemi ile küçültülerek deneyler yapılmış ve DVM yönteminin daha başarılı sonuçlar verdiği gözlemlenmiştir. Sınıflandırma probleminin çözümünde DVM yönteminin başarılı olduğu gözlemlendikten sonra ilgili DVM yöntemi akan veri üzerine uyarlanmaya çalışılmıştır. Akan büyük veri teknolojisi olarak Apache Spark Streaming seçilmiştir. Apache Spark Streaming ve Apache Spark MLlib teknolojileri kullanılarak DVM yöntemi akan veri üzerine uyarlanmıştır. Apache Spark Streaming teknolojisi ile beraber gelen mevcut akan LR yöntemi ile sonuçlar karşılaştırılmış ve geliştirilen DVM yönteminin kullanılan veri kümeleri üzerinde daha başarılı sonuçlandığı gözlemlenmiştir. Öte yandan Apache Spark teknolojisi paralel programalama modeli ile çalışmaktadır. Geliştirilen akan DVM yöntemin dağıtık bilgisayarlara getirdiği yük incelendiğinde mevcut akan LR yöntemi ile benzer sonuçlar çıktığı gözlemlenmiştir.