Please use this identifier to cite or link to this item: http://hdl.handle.net/11527/382
Title: Web Nesneleri İçin Kalitenin Belirlenmesi
Other Titles: Quality Detection For Web Objects
Authors: Öğüdücü, Şule Gündüz
Atak, Ahmet Aycan
405004
Bilgisayar Mühendisliği
Computer Engineering
Keywords: Veri madenciliği
Makine öğrenmesi
Veri kalitesi
Data mining
Machine learning
Data quality
Issue Date: 6-Jan-2013
Publisher: Fen Bilimleri Enstitüsü
Institute of Science and Technology
Abstract: Web içerdiği nesnelerin sayısı açısından bakıldığında gün geçtikçe artan bir hızla büyümektedir. Günümüzde Web in ulaştığı boyut, içerdiği nesnelerin kalitelerinin uzmanlar tarafından elle belirlenmesini imkansız hale getirmektedir. İnternetteki otorite eksikliği ve kullanıcıların Web e tamamen özgürce içerik ekleyip, bu içerikleri idare etmesi de kalitesi düşük içeriğin veya kötü niyetli yaramaz (spam) içeriklerin Web deki miktarını önemli ölçüde arttırmaktadır. Bu çalışmada, belirtilen nedenlerden ötürü önemi artan, Web deki nesnelerin kalitelerinin tespit edilmesi üzerine çalışılmıştır. İlk etapta yaramaz mim (bookmark) nesnelerinin yaramaz olmayanlardan ayrılması görevini içeren ikili karar problemi çözülmeye çalışılmıştır. Bunun için eldeki folksonomi verisi ilişkisel bir veriymiş gibi kabul edilerek, ilişkisel verinin sınıflandırılması için önerilmiş olan İlişkisel Bayes Sınıflandırıcı (İBS) ile karar verme işlemi gerçekleştirilmiştir. Bunun yanında C4.5 karar ağacı algoritması, nitelik seçimi amacıyla eldeki veriye uygun olacak şekilde uygulanmıştır. Yapılan deneylerle, önerdiğimiz yöntemin yaramaz nesneleri belirleme de oldukça başarılı olduğu görülmüştür. Sonuçlar ve yöntemin artı-eksi yönleri, aynı veri kümesini kullanan diğer çalışmalar göz önüne alınarak tartışılmıştır. İkinci olarak internette yer alan sitelerin kalite seviyelerine göre derecelendirilmesi üzerine çalışılmıştır. Burada karşı karşıya kalınan problem kategori gibi ikiden fazla değer alabilen ve güvenilirlik, tarafsızlık gibi göreceli değerlendirilmesi gereken kalite sınıfına ait niteliklerin tahmin edilmesidir. Bu yüzden, söz konusu çoklu karar problemlerini içeren kalite tespitinin yapılması için bir sistem önerilmiştir. Önerilen sistemden deneyler sonucunda tatmin edici sonuçlar alınmıştır. Ayrıca, bu çalışmada kullanılan veri kümesinin sahip olduğu göreli sınıf etiketlerinin etiketlenmesi safhasında problem olması ve yine aynı veri setinde birçok site için terim vektörünün bulunmaması gibi sorunlara da değinilmiştir. Bir önceki çalışma sırasında kullanılan veri kümesindeki bazı sitelerin bazı nitelik değerlerinin eksik olduğu belirlenmiştir. Bu tür sitelerin kalite sınıfının belirlenmesinde problem olması nedeniyle, üçüncü çalışmada bu problem için bir çözüm önerilmiştir. Bu tür sitelerin kalite sınıflarının belirlenmesi amacıyla çizge (graph) üzerinde yayılma (propagation) yapılmıştır. Kalite sınıfını belirleyemediğimiz bir sitenin, sınıfını bildiğimiz komşu siteleri kullanılarak söz konusu site için belli fonksiyonlar yardımıyla sonuca gidilmiştir. Buradaki problem ise çizgenin bağlı olmayan parçalar içermesidir. Bu konuda da yapılabilecek olası çalışmalara tez içerinde değinilmiştir. Çizge üzerinde yayılma ile istenilen sonuçlara, yani daha fazla sayıda sitenin kalitesi belirlenirken, performansın düşmemesi amacına başarıyla erişilmiştir.
Web is growing rapidly day by day. Today, if size of the Web is considered, it is impossible to detect quality of the Web objects such as e-mail or Web pages manually by experts. Lack of authority in the Web and users freedom on adding and managing content on the Internet causes increase of the number of spam and low quality content. That s why, in this study, detecting quality of the Web objects, which is a very important subject due to mentioned reasons, is studied. At the first step, it is studied to split spam bookmark objects from non-spam bookmark objects which is a two-class decision problem. For this, available folksonomy data is adopted as relational data and then Relational Bayesian Classifier (RBC) which is proposed for classification of relational data is used for decision process. Also, C4.5 algorithm is adopted to available data set for attribute selection. With experimental results, for detecting spam content, it is shown that the system proposed in this study is quite succesfull. Results of the proposed system and both positive and negative features of it mentioned according to other studies focused on the same data set. At the second step, we study about ranking Web sites according to their quality levels. Here, the problem we faced is multi-class decision problem caused by multi-class valued attributes such as category and categories which requires relatively determination such as trustiness and neutrality. That s why, a system which handles these decision problems is proposed. For proposed system, satisfactory results are obtained with experimental results. Also, problems related with dataset are pointed. For example, for most of the Web sites, there isn t any term vector which is the base element of our framework. Besides, according to distribution of relative class attributes such as trustiness, neutrality and bias, it is concluded that these class attributes are labeled by experts without any standard. At the third step, as continuation of the study at the second step, for Web sites that don t have category prediction results due to term vector absence, graph propagation is performed to generate category prediction results for these pages. For Web sites that don t have category prediction results, category prediction results are obtained according to their neighbors category prediction results and some propagation formulas. Here, problem is the nodes that are seperate from the biggest and connected graph component. For this problem, possible future studies are mentioned in the thesis. With graph propagation, intended results, namely generating results for more Web sites without any performance decrease, are taken.
Description: Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2011
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2011
URI: http://hdl.handle.net/11527/382
Appears in Collections:Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans

Files in This Item:
File Description SizeFormat 
11752.pdf1.95 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.