Sosyal İmleme Sistemlerinde İstenmeyen Kullanıcıları Belirleme

thumbnail.default.alt
Tarih
2012-08-13
Yazarlar
Gargari, Soghra Mehdinejad
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Sosyal imleme sistemleri, Web kullanıcılarına, kaynaklarını depolama, organize etme ve bu kaynakların içinde arama yapma olunağı sunmaktadır. Buna ek olarak, bu sistemler, kullanıcılarına, Web üzerinde depolanmış kaynaklarını, diger kullanıcılarla paylaşma fırsatı da sunmaktadır. Bu kullanıcılar, sosyal imleme sitelerinde ortak ilgi alanlarına göre çeşitli gruplara üye olup, aktivitelerde bulunabilirler. Sosyal imleme veya benzer sistemlerin yaygın olmasının nedeni çevrimiçi çalışmaları ve kolay kullanılabilmeleridir. Kullanıcılar herhangi bir yerden internete baglanarak, hesaplarına ulaşabilir ve yönetebilirler. Bu sistemlerde dil kısıtlaması olmadıgı için, kullanıcılar istedikleri dilde etiketleme yapabilmektedir. Son dönemlerde, bu sistemlerin yaygın kullanımıyla beraber büyük bir veri hacmi oluşmuştur. Bu verilerin en önemli tarafı gerçek kullanıcılar tarafından üretilmiş olmalarıdır. Bundan dolayı Web arama motorları için zengin kaynak oluşturmaktadırlar. Arama motorlarının onlara gönderilen sorguları cevaplayabilmeleri için internet sayfalarını önceden depolamaları gerekmektedir. Bir sorgu sonucu olarak sayfaları oluşturmaları da kelimelersayesindeolmaktadır. Burada“Index”adıverilen listelerde Web sayfalarında geçen kelimeler tutulmaktadır. Böylece arama motorları sadece bu listeyi belleklerinde tutmakta ve zamanla genişletmektedirler. Onlara gelen sorguları da bu indekslere bakarak cevaplamaktadırlar. Aslında söz konusu olan sosyal imleme sistemlerinde de kullanıcılar tarafından sayfalara verilen etiketler, indeks olarak kabul edilebilir. Bu etiketlerin gerçek kullanıcılar tarafından verilmesi, arama motorlarına bu bilgileri de kullanarak kullanıcıya dogru sayfalar sunma olanagı saglamaktadır. Web ortamının her bir alanında istenmeyen aktiviteler görülebilmektedir. Bu aktivitelere en belirgin örnek istenmeyen elektronik mektuplardır. Bu mektupların içerigini çogunlukla satış amaçlı reklamlar oluşturmaktadır. Aslında istenmeyen aktivitelerin çogunun amacı satış yapmaktır ve Web ortamı da bunun için müsait ve ucuz bir ortamdır. Sosyal imleme sistemlerine olan ilginin artması ve arama motorlarının da bu sistemlerdeki bilgileri kullanmalarının bir yan etkisi de istenmeyen kullanıcı olarak degerlendirilen kullanıcı sayısının artmasıdır. Sosyal imleme sistemlerinin kolayca kullanılabiliyor olması da istenmeyen kullanıcıların bu sistemlerde daha rahat aktivite göstermelerine yol açmıştır. Yapılan araştırmalara göre istenmeyen kullanıcıların temel amaçlarından biri, Web ortamı ve sosyal aglardaki veri trafigini kendi oluşturdukları kaynaklara yöneltmektir. Bu dogrultuda, bu kullanıcılar, Web ortamındaki arama motorlarını ve sosyal imleme sisteminin diger kullanıcılarını hedef yapıp, yanlış yönlendirerek amaçlarına ulaşma çabasındadırlar. Bu arada istenmeyen kullanıcılar, sosyal imleme sistemlerindeki uygulanan filtrelerin farkına varıp, kendilerini normal kullanıcı olarak tanıtmaktadırlar. Genellikle istenmeyen kullanıcılar, kendilerine özel sayfaları normal veya popüler sayfa göstermekte ve aynı zamanda filtrelere yakalanmayacak şekilde degişik kullanıcı isimleri kullanmaktadırlar. Bu tip aktiviteler, Web ortamının ve xxi sosyal imleme sistemlerindeki verinin akışını ve güvenilirligini tehlikeye atmaktadır. O yüzden, güçlü bir istenmeyen kullanıcı bulma ve önleme sistemine ihtiyaç duyulmaktadır. Genellikle bu önleme sistemleri üç degişik yöntem kullanılmaktadır. Bu seviyeler keşif, alt sınıfa indirme veya önleme olarak adlandırılır. Bulma veya keşif yöntemleri kullanıcıların katkısı ve makina ögrenme tekniklerine dayalıdır. Bu seviyedeki keşif işlemleri kullanıcı bazında, kaynak bazında veya etiket bazında yapılmaktadır. Bu çalışmada, güvenilir bir istenmeyen kullanıcı bulma ve önleme sistemi sunulmaktadır. Bu çalışmada, güvenilir bir istenmeyen kullanıcı bulma ve önleme sistemi sunulmaktadır. Burada önerilen istenmeyen kullanıcıları belirleme ve önleme sistemi de keşif seviyesinde olup, makine ögrenme tekniklerine dayanmaktadır. Genelde makineögrenmetekniklerininamacıgeçmiştekiverilerikullanarakyenigelenörnekler için tahminlerde bulunmak ve onları kapsayan örüntülere yakınsamaktır. Bu çalışmada ise önceden belirgin olan normal ve istenmeyen kullanıcıların davranışlarını dikkate alınacak, test kümelerindeki belirsiz kullanıcılar makine ögrenme teknikleri kullanarak sınıflandırılmaktadır. Çalışma kaynak, kullanıcı ve etiket bazında yapılarak iki aşamadan oluşmaktadır. İlk aşamada ayırd edici özelliklerle istenmeyen aktiviteler belirlenmeye çalışılmıştır. Sosyal imleme sistemlerinin sagladıgı örüntü örnekleri, genel olarak, işlenmemiş bir biçimde sunulmaktadır ve ayırd edici özelliklere sahip olmamaktadır. Bu yüzden, veri madenciligi yöntemlerini kullanarak, sunulan verilerden, ayırd edici özelliklere sahip olan nitelikler çıkarmak, sistem açısından önemli bir aşamadır. Bu çalışmada, veri için yüksek ayırd edici özelliklere sahip olan yeni nitelikler ortaya koyulmuştur. Bu nitelikler zaman ve katılım bazındaki incelemelerden ortaya çıkmıştır. Bir sosyal imleme sistemindeki kullanıcıların zaman içinde o sisteme yaptıgı giriş ve çıkışlar gözlemlenmiş, oturum bazında ayırılmıştır. Her bir oturum, içerisinde peş peşe yapılan etiketlemelerin arası 30 dakikayı (eşik deger) geçmeyecek şekilde düşünülmüştür. Kullanıcıların oturumlardaki davranışları izlenmiş, bazı istenmeyen kullanıcıların degişik kullanıcı isimleri kullanarak, aynı saatte tek bir kaynagı etiketleyerek sistemi yükledikleri gözlemlenmiştir. Bu davranış bir istenmeyen kullanıcı davranışı oldugundan, sistemdeki kullanıcıların sistemi yükleme oranları ölçülmüştür. Imleme sisteminde, kullanıcıların sık etiketlemeleri sonucunda bazı Web kaynakları o etiket içerigi için referans kaynak duruma gelmiştir. Bu referans sayfaların ziyaretçi sayısı da artarak, o konuyu araştıran diger kullanıcılar da zamanla o sayfaya yönlenmiştir. Istenmeyen kullanıcılar ise kendi sayfalarını referans veya popüler göstermek amacıyla o sayfaları degişik kullanıcı isimleriyle etiketlemektedir. Bu etiketleme aynı saatte oldugu zaman, sistemi fazla yükleme filtresine yakalanmaktadır. Ancak degişik saatlerde yapılan etiketlemeler bu filtreyi devre dışı bırakmaktadır. Bu nedenle de ikinci bir filtre olması gerekmektedir. Bu amaçla kullanıcıların paylaşım oranlarını ölçerek, paylaşım yüklenmesi olarak adlandırdıgımız kavram ortaya çıkmıştır. Az sayıda kullanıcı toplulugunun çok büyük sayıda kaynak etiketlemeleri veya aksine çok sayıda kullanıcı toplulugunun az sayıda kaynak etiketlemeleri, ve kaynakların gerçek olmayan güven oranını yükseltmek, bir istenmeyen aktivite göstergesidir. Bu nedenle kullanıcıların paylaşım oranlarını ölçme fikriyle ikinci bir filtre yapılmıştır. Zaman ve paylaşım gibi kavramlardan çıkartılan ayırd edici özellikler bu çalışmanın ilk aşamasını oluştururken, ikinci aşamada da kullanılmaktadır. Sadece ayırd edici özellikleri kullanarak sistemdeki istenmeyen kullanıcıların çogunun tanımlanması imkansızdır. Bu nedenle bu çalışmanın ikinci xxii kısmında, anlamsal yöntemler kullanılmıştır. Aslında anlamsal yöntemler bundan öncede bu tür problemlerin çözülmesinde iyi performans göstermişlerdir. Imleme sistemlerini anlamsal olarak incelemekten kasıt, kullanıcıların, kaynakların ve etiketlerin arasındaki baglantıların incelenmesidir. Literatürde bu sistemlerin anlamsal olarak incelenmesi için degişik yöntemler önerilmiştir. Bizim tercih ettigimiz yöntem ise çok hızlı çalışan ve zaman içeresinde az degişim gerektiren bir yöntemdir. Imleme sistemleri yeni gelen kullanıcılara açıktır ve kullanıcı sayıları da gün geçtikçe artmaktadır. Yeni kullanıcılar, kaynaklar ve etiketler eklenirken, istenmeyen kullnıcıları önleme sisteminin az miktarda degişime ugraması büyük bir avantajdır. Öte yandan daha önce belirttigimiz gibi istenmeyen kullanıcıların zaman içinde davranış degiştirmeleri nedeniyle, yeni gelişen davranışların da anlaşılması gerekmektedir. Sistemdeki tüm kullanıcıların aktiviteleri, baglantıları ve davranış degişimlerini anlamak için o sistemin tüm yapısına hakim olunması gerekmektedir. Tüm bu gereksinimleri gözden geçirerek anlamsal inceleme kısmında Trust Rank yöntemi adıyla anılan ikinci çerçeve için seçilmiştir. Trust Rank yönteminde kullanıcıların bagımlılıkları ortak kaynak veya ortak etiketler veya başka ortak özelliklerle ölçülüp, bir benzerlik matrisi oluşturulur. Sistemdeki belirgin normal ve istenmeyen kullanıcılar ise çekirdek dizisinde yer alır. Çekirdek dizide normal kullanıcılar pozitif ve istenmeyen kullanıcılar negatif ve test kullanıcıları ise sıfır olarak yerleştirilmiştir. Bu formül çalıştırıldıktan sonra test kullanıcılarının normal veya istenmeyen kullanıcı olup olmadıkları belirlenir. Bu da test kullanıcılarının hangi oranla normal veya istenmeyen kullanıcılarla baglantılı olmalarına dayanmaktadır. Bu çalışmada Trust Rank yönteminin temel unsurları olarak tanımlanan çekirdek dizisi ve benzerlik matrisi üzerinde iyileştirmeler yapılmıştır. Çekirdek dizideki belirgin kullanıcıların boyutunu azaltmak için destek vektör makinelerinin kullanmasını önerilmiştir. Kullanıcıların birinci aşamada önerilen ayırd edici özelliklerinin degerleri üzerinden destek vektör makineleri çıkarılmış ve çekirdek dizide bu vektörlerin kullanılmasıyla dizinin boyutu küçülmüştür. Bu dizinin küçülmesi zaman ve yer karmaşıklıgı konusunda iyileşme anlamına gelmektedir. Ayrıca benzerlik matrisinin oluşturulmasında sadece kaynaklar degil o kaynakların sunucuları kullanılmıştır. Bu degişim kullanıcılar arasındaki benzerligi arttırdıgı için daha dogru sonuçlar vermiştir. Sistemde bazı kullanıcılar hep izole oldugundan, benzerlik yöntemi ile çekirdek diziden onlara ulaşılmamaktadır. Bu nedenle kullanıcılar arasında en ideal baglantıyı kurmak için, kosinüs benzerligi kullanılmıştır. Önerilen birinci ve ikinci çerçevelerde sunulan yöntemler üzerinde testler yapılmış, bu yöntemlerin istenmeyen kullanıcıların belirlenmesinde etkili oldukları ispatlanmıştır.
One of the the biggest technological developments of the recent century is probably the Internet. It has brought together people from all corners of the world with different cultures. Millions of users pass their time to read, learn, research or to do business using the internet. The need of users for organize their favourite resources make companies to serve services which resulting organizing or sharing of their resources efficiently. This lead to the development of what is currently known as social bookmarking sites that have taken the internet world by storm. Bookmarking systems enable users to store, organize and search their resources. Furthermore, a social bookmarking system allows users to share their resources with others and even join groups of people with similar interests. The data size in social bookmarking systems has been increased sharply in recent years with the usage of such systems. The importance of data in these systems is due to their data type which is filtered by users. Then they can be a good source for the search engines and help them to easily figure out the contents of Web pages. In addition of understanding the Web contents directly, these social bookmarking systems also help search engines to rank the Web pages too. However, such systems attract spammers due to their ease of use and popularity. Spammershavestartedmisleadingsearchenginesandotherbookmarkingsystemusers inordertodirectWebtraffictowardstheirownpages. Tomaketheirpagesmorevisible they use different techniques in order to mislead search engines. They are also aware of filters in the bookmarking systems and mostly act as normal users or change their activity type time to time to deceive the spam detection filters. Strong prevention and detection methods in social bookmarking systems are indispensable in order to stop spam activities and guaranty the accuracy and reliability of information. The on-line and real time techniques of detection and prevention would be more efficient. In the literature there are some methods which introduced to combat with this problem. Some of these techniques focus on just posts of users where some others try to understand the spam activity by consideration of users treatment in the system. Directly referring to the resources to realize their contents would be very time consuming and finding spammers on post levels or user levels are more accepted. In both of these levels different techniques are available. Finding spam features and classifying users as spam/non-spam base on those features is one of them. Semantic analysis of social bookmarking systems is the other proposed technique. Here Spam detection is done by semantic analysing the users activity or analysing the relations between users in the system and also semantically analysing their posts. Here in this thesis, we have a review on works in the literature related toward this problem. In most of those researches semantic analysis of the system has been xix considered. However some others worked on finding the efficient features for spam detection task. In this work, we first introduce a novel framework for spam detection task in social bookmarking systems . Here, we propose a set of new features to improve the accuracy of spammer detection. Our experiments show that our features demonstrate a high discriminative power. Next we modify and use a semantic technique to improve the results of our proposed spam detection method. A performance evaluation of our proposed method over other spammer detection methods indicate that the proposed model yields an improvement of the prediction accuracy.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2012
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2012
Anahtar kelimeler
sosyal, imleme, istenmeyen kullanıcı, spammer, social, bookmarking, detection
Alıntı