LEE- Bilgisayar Mühendisliği-Yüksek Lisans
Bu koleksiyon için kalıcı URI
Gözat
Konu "artificial neural networks" ile LEE- Bilgisayar Mühendisliği-Yüksek Lisans'a göz atma
Sayfa başına sonuç
Sıralama Seçenekleri
-
ÖgeFight recognition from still images in the wild(Graduate School, 2022-06-22) Aktı, Şeymanur ; Ekenel, Hazım Kemal ; 504191539 ; Computer EngineeringViolence in general is a sensitive subject and can have a negative impact on both the involved people and witnesses. Fighting is one of the most common types of violence which can be defined as an act where individuals intend to harm each other physically. In daily life, these kinds of situations might not be faced too often, however, the violent content on social media is also a big concern for the users. Since violent acts or fights in particular are considered as an anomaly or intriguing for some, people tend to record these scenes and upload them on their social media accounts. Similarly, news agencies also regard them as newsworthy material in some cases. As a result, fighting scenes become available on social media platforms frequently. Some users may be sensitive to these kinds of media content and children who can be harmed due to the aggressive nature of the fight scenes also uses social media. These facts make it necessary to detect and put limitations on the distribution of violent content on social media. There are some systems focusing on violence and fight recognition on visual data. However, these works mostly propose methods on different domains for violence such as movies, surveillance cameras, etc., and the social media case remains unexplored. Furthermore, even if most of the fight scenes shared on social media are in video sequences, there is also a non-ignorable amount of image data depicting violent fighting. However, no work tackles the fight recognition from still images instead of videos. Thus, in this thesis, the problem of fight recognition from still images is investigated. In this scope, first, a novel dataset was collected from social media images which is named Social Media Fight Images (SMFI). The dataset was collected from Twitter and Google images and some frames were included from the video dataset of NTU CCTV-Fights. The fight samples were chosen among the samples which are recorded in uncontrolled environments. In order to crawl a large amount of data, different keywords were used in various languages. The non-fight samples were also chosen among the data crawled from social media in order to keep the domain consistent across the classes. The dataset is made publicly available by sharing the links to the images. For the classification of the Social Media Fight Images dataset, some image classification methods were applied to the dataset. First, Convolutional Neural Networks (CNN) were employed for the task and their performance was assessed. Then, a recent approach, Vision Transformer (ViT) was exploited for the classification of the fight and non-fight images. The comparison showed that the Vision Transformer gives better results on the dataset achieving a higher accuracy with less overfit. A further experiment was also held on investigating the effect of varying dataset sizes on the performance of the model. This was seen as necessary as the data shared on social media may be deleted in the future and it is not always possible to retrieve the whole dataset. So, the model was trained on different partitions of the dataset and the results showed that even if using more data is better, the model could still give satisfying performance even in absence of 60% of the dataset. Upon the successful results on fight recognition on still images problem, another experimental study was conducted on the classification of video-based datasets using a single frame from each sample. The experiment included four video-based fight datasets and results showed that three of them could be successfully classified without using any temporal information. This indicated that there might be a dataset bias for these three datasets where the inter-class visual difference is high across the classes. Cross-dataset experiments also supported this hypothesis where the trained models on these video datasets perform poorly on the other fight recognition datasets. Nonetheless, the network trained on the proposed SMFI dataset gave a promising accuracy on other datasets as well, showing that the dataset generalizes the fight recognition problem better than the others.
-
ÖgeOrthogonality based feature selection for ai applications(Graduate School, 2024-08-19) Şentop, Mehmet Selahaddin ; Üstündağ, Burak Berk ; 504221523 ; Computer EngineeringFeature selection is a significant aspect of AI models, which directly influences their accuracy and efficiency. A common problem in this process is redundancy among features, where multiple features provide overlapping information. Besides being inefficient, this redundancy can cause overfitting, where a model becomes too tailored to the specific data it was trained on and fails to generalize to new data. To tackle these challenges, this thesis introduces an orthogonality-based approach to feature selection. By ensuring that the selected features are independent and non-redundant, this approach improves the model's performance across various tasks. Two example applications—data imputation and short-term forecasting—are explored to demonstrate the effectiveness of this approach. Missing, distorted, or inaccurate data is a serious problem in many fields, including agriculture, healthcare, and environmental monitoring. These gaps in data can make it hard to trust the results of any analysis or decisions based on that data. Problems like sensor breakdowns, transmission errors, or incomplete data collection can make entire datasets unreliable. When this happens, it can lead to biased conclusions and poor decisions. This issue is especially serious in situations where decisions need to be made quickly and accurately, like in real-time systems. For example, if there's missing data in an agricultural monitoring system, it could lead to wrong decisions about watering crops, which could harm yields. To solve this problem, this study introduces a new orthogonality-based feature selection method called the Predictive Error Compensated Neural Network (PECNET) model. PECNET uses a method that focuses on selecting data features that are independent from each other and correcting errors in predictions to improve the accuracy of filling in missing data and making short-term forecasts. The study is based on two main ideas. First, it suggests that advanced machine learning models like PECNET can do a better job than traditional methods at finding and using patterns in complex data. Second, it believes that by making sure the features the model uses are independent, PECNET can avoid overfitting, which happens when a model is too closely tailored to the specific data it was trained on and does not work well with new data. PECNET's approach to select which data to focus on is a key part of its success. The model begins by looking at how different data points relate to each other and to the target being predicted. It first picks the data feature that has the biggest impact on the target. Then, instead of just adding more similar features, PECNET focuses on predicting and correcting errors from earlier predictions. This way, it finds new patterns in the data that were not considered before, helps to avoid repetition and makes the model better at handling new data. The study tested PECNET using data from The Agricultural and Environmental Informatics Research and Application Center (TARBIL), a system that collects agricultural and environmental information from across Türkiye. PECNET was tested in two types of experiments for missing data imputation: one where data from just one station was used, and another where data from several nearby stations was combined. In both types of experiments, PECNET, especially when combined with Discrete Wavelet Transform (DWT), showed better accuracy than traditional methods. Numerically, PECNET + DWT achieved more than 50% less Root Mean Squared Error (RMSE) for single station experiments and up to 80% less RMSE for multi-station experiments. The model's ability to use data from multiple stations led to big improvements in predicting challenging variables like wind speed and humidity. Besides filling in missing data, PECNET was also tested on predicting short-term rainfall, which is very important for farming. Accurate rainfall predictions help farmers make better decisions about when to water crops, manage land, and estimate yields. In these tests, PECNET performed better than traditional models like Long Short-Term Memory (LSTM) and Prophet by achieving 50% less Mean Absolute Percentage Error (MAPE) and three times less RMSE and Mean Absolute Error (MAE). PECNET's ability to combine different types of independent data helped it make more accurate and reliable short-term rainfall forecasts. In summary, orthogonality-based feature selection method, whose impact is shown through PECNET, offers a new and effective way to deal with the challenges of missing data and short-term forecasting. By focusing on selecting independent data features, the method not only improves accuracy but also avoids common pitfalls like overfitting. The study's results support the initial hypotheses, showing that orthogonality-based feature selection can effectively overcome the limitations of traditional methods. Its successful application to the TARBIL dataset suggests that it could be a valuable tool in many fields where accurate data and forecasts are crucial. This research is an important step forward in improving how data is analyzed and decisions are made.
-
ÖgeYerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı(Lisansüstü Eğitim Enstitüsü, 2023-02-01) Arı, Mert ; Ekenel, Hazim Kemal ; 504191553 ; Bilgisayar MühendisliğiYüz tanıma, kişinin yüz görüntüsünü kullanarak kimliğini belirleme veya doğrulama işlemidir. Yüz tanıma, biyometri alanında son zamanlarda öne çıkan konulardan biri olmuştur. Özellikle gözetleme sistemleri, bankacılık ve kamu güvenliği gibi birçok alanda yüz tanıma sistemleri yaygın olarak kullanılmaktadır. Yüz tanıma alanındaki son çalışmalar, görünür görüntüler üzerinde oldukça başarılı sonuçlar elde etmiştir. Buna karşılık, özellikle sınır güvenliği gibi askeri amaçlar için görünür görüntülemeye ek olarak kızılötesi görüntüleme tekniğine de ihtiyaç duyulmaktadır. Görünür ve kızılötesi spektrumları elektromanyetik spektrumun farklı frekans bantlarında yer almaktadır. Kızılötesi frekans bandı insan gözü tarafından görülememektedir. Ayrıca, kızılötesi görüntüleme sistemleri, ısı enerjisinin bir ortam boyunca dağılımını algılamaktadır. Bu enerji termal detektörler yardımıyla gözle görülebilir bir görüntüye dönüştürülerek termal görüntüler oluşturulmaktadır. Bu nedenle, görünür ve termal görüntüler farklı özelliklere sahiptir. Bu çalışmada, hem görünür hem de termal görüntüler üzerinde başarılı sonuçlar üretebilecek bir yüz tanıma yaklaşımı araştırılmıştır. Derin evrişimsel sinir ağları birçok görsel görevde başarılı sonuçlara ulaşmıştır. Ayrıca, yüz tanımada da yaygın olarak kullanılmıştır. Bu alanda son zamanlarda yapılan çalışmalar içerisinde farklı özelliklere sahip marj tabanlı kayıp fonksiyonları ön plana çıkmaktadır. Bu kayıp fonksiyonlarındaki ilerlemeler yüzlerin ayırt edilebilirliğini arttırmıştır. Ancak bu ağların yüz tanıma için göz bölgesine odaklandıkları tespit edilmiştir. Bu sorun özellikle üst yüz engelleme durumunda derin evrişimsel sinir ağ modellerinin performansını düşürmüştür. Diğer taraftan, yerel görünüm tabanlı yaklaşımların üst yüz engellemeye karşı daha dayanıklı olduğu birçok çalışmada gösterilmiştir. Ek olarak, dönüştürücülerin görüntülere uygulanmasıyla görüntü dönüştürücü kavramı ortaya çıkmış ve derin evrişimsel sinir ağlarına oranla daha yüksek başarım sağladığı gösterilmiştir. Sonuç olarak, farklı yaklaşımların tek bir yapıda harmanlanmasıyla daha iyi bir yüz tanıma performansına ulaşılabileceği düşünülmüştür. Bu tez çalışması kapsamında, girdi olarak görünür veya termal bir görüntü alan hibrit bir yüz tanıma yaklaşımı önerilmiştir. Yaklaşım, ön işleme, yüz tespiti, yüz hizalama, öznitelik çıkarımı ve sınıflandırma olmak üzere beş aşamadan oluşmaktadır. Yaklaşımın ön aşamasında, tek kanallı termal görüntüler derin modellere girdi olarak verilebilmesi amacıyla kanal çoklama yöntemiyle üç kanala çıkarılmıştır. Kullanılan veri kümeleri özel koşullarda hazırlandığı için görüntüler üzerinde başka bir ön işlem adımına ihtiyaç duyulmamıştır. Yüz tespiti kısmında iki çeşit yüz tespit mimarisi kullanılmıştır. Bu yüz tespit mimarileri, Dlib kütüphanesinde bulunan maksimum marjlı nesne tespiti yaklaşımı ve çok görevli sıralanmış evrişimsel sinir ağı yöntemidir. Maksimum marjlı nesne tespiti, veri kümelerimiz üzerinde daha iyi sonuçlar elde etmiştir. Diğer taraftan, çok görevli sıralanmış evrişimsel sinir ağı, derin yüz tanıma sistemleri için bir standart yüz tespit mimarisi olduğu için tercih edilmiştir. Yüz hizalama adımı, tespit edilen yüz görüntüsü ve göz merkez noktalarını girdi olarak almaktadır. Bu aşamada, yüz görüntüleri üzerinde hiyerarşik bir arama şeması ile göz merkezi kombinasyonları oluşturulmuştur. Son olarak, yeni yüz görüntüleri oluşturulmuş ve bu göz merkez noktalarına göre hizalanmıştır. Bu hizalama adımları, yerel görünüme dayalı yaklaşımdan önce uygulanmıştır. Öznitelik çıkarım adımı üç farklı yaklaşımdan oluşmaktadır. İlki, maksimum marjlı nesne tespiti modelinden elde edilen hizalanmış gri seviyede bir yüz görüntüsünü girdi olarak alan yerel görünüm tabanlı yaklaşımdır. Bu yöntemde, girdi görüntüsü sabit bir çözünürlüğe sahip bloklara bölünmektedir. AKD katsayıları, her blokta AKD işlemi gerçekleştirilerek hesaplanır ve zikzak tarama kullanılarak sıralanmaktadır. Böylece özellik vektörü oluşturulmaktadır. Sonuç olarak, bu yöntem 640 boyutlu bir öznitelik vektörü üretmektedir. İkinci ve üçüncü yaklaşımlarda, derin öğrenme tabanlı modeller, çok görevli sıralanmış evrişimsel sinir ağından elde edilen hizalanmış yüzleri girdi olarak almaktadır. ResNet-50 omurga ağına sahip Arcface modeli, MS1MV2 veri setinde önceden eğitilirken, görüntü dönüştürücü model ise MS-Celeb-1M veri setinde önceden eğitilmiştir. Her iki derin model de çıktı olarak 512 boyutlu bir öznitelik vektörü üretmektedir. Bu derin modeller, doğrudan görünür yüz tanıma için kullanılmaktadır. Ancak bu derin modeller, termal yüz tanıma için ince ayarlanmıştır. Yaklaşımın son kısmı olan sınıflandırmada, girdi görüntüsünden elde edilen öznitelik vektörleri galeri görüntülerinden oluşturulan öznitelik vektörleri ile en yakın komşu tabanlı algoritmalar kullanılarak karşılaştırılmıştır. Elde edilen uzaklık çıktıları katsayılarla ağırlıklandırılarak karar birleştirimi yapılmıştır. Literatürde, yüz tanıma için kullanılan birçok görünür ve termal yüz veri kümesi mevcuttur. Bu çalışma kapsamında EURECOM, Carl ve ROF veri kümeleri kullanılmıştır. EURECOM veri kümesi, 50 farklı kişiden elde edilen görünür ve termal eşleştirilmiş yüz görüntü çiftlerinden oluşmaktadır. Toplamda 2100 adet görüntü içermektedir. Bu veri setindeki görüntüler, değişen yüz ifadesi, aydınlatma koşulu, baş pozisyonu ve yüz engelleme varyasyonlarına sahiptir. Bu tez çalışması kapsamında, EURECOM veri kümesi test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Görüntü varyasyonları içerisinde yer alan yüz ifadesi varyasyonunda bulunan ifadesiz kalma durumu kişiye ait referans görüntü olarak seçilerek galeri alt veri kümesine eklenmiştir. Geri kalan yüz ifade varyasyonları ve diğer varyasyonlar modelimizin genellenebilirliğini gözlemleyebilmek amacıyla sorgu alt veri kümesine eklenerek değerlendirme aşamasında kullanılmıştır. Ayrıca, EURECOM veri kümesi içerisinde yer alan termal üst yüz engelleme varyasyonundan rastgele seçilen 50 örnek doğrulama aşamasında kullanılmıştır. Carl veri kümesi, 41 farklı kişiye ait görünür, yakın ve uzun dalga kızılötesi yüz görüntüleri içermektedir. Bu veri setindeki görüntüler farklı tarihlerde düzenlenen dört farklı oturum sonucu elde edilmiştir. Her oturumda her bir kişi için üç farklı aydınlatma koşulunda beş farklı anlık görüntü çekilmiştir. Bu çalışmada, Carl veri kümesi içerisinde yer alan sadece uzun dalga kızılötesi, yani termal yüz görüntüleri kullanılmıştır. Bu termal görüntüler, hibrit yaklaşımımızdaki derin öğrenme modellerinin termal alana uyarlanabilmesi için uyguladığımız ince ayar işleminde kullanılmıştır. ROF veri kümesi ise güneş gözlüğü ve maskeler nedeniyle gerçek hayatta oluşan yüzün üst ve alt kısmının engellenme durumuna sahip görüntüleri içermektedir. Bu amaçla veri kümesinde iki farklı protokole yer verilmiştir. İlk protokol üst yüz engelleme durumlarını içeren görüntüleri ele alırken ikinci protokol alt yüz engelleme sorunu için oluşturulmuştur. Bu çalışmada, ROF veri kümesinin 161 farklı kişi içeren ilk protokolü test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Bu veri kümesinde her bir kişiye ait üç galeri görüntüsü mevcuttur ve bu görüntüler referans olarak seçilerek galeri alt kümesine eklenmiştir. Ayrıca, protokoldeki güneş gözlüğü ile oluşturulan üst yüz engellenme durumundaki görüntülerden bir küme oluşturulmuştur. Bu kümenin içerisinden rastgele seçilen 1000 adet örnek görüntü, doğrulama aşaması için kullanılmıştır. Geri kalan üst yüz engelleme durumuna sahip görüntüler ise yöntemimizin görünür görüntüdeki üst yüz engellenme durumu performansını değerlendirmek için sorgu alt veri kümesine eklenerek test aşamasında kullanılmıştır. Bu tezde incelenen noktalardan biri de derin öğrenme modellerinin termal yüz tanıma performansı olmuştur. Termal yüz tanıma performansını artırmak için, önceden eğitilmiş derin modeller, Carl veri kümesindeki termal görüntülerle ince ayarlanmıştır. Yapılan deneyler sonucunda ince ayarlı modellerin termal alana başarılı bir şekilde uyarlandığı görülmüştür. Önerilen yaklaşımdaki bileşenlerin yüz tanıma sonuçları üzerindeki katkıları araştırılmıştır. Bu bağlamda, yüz hizalamanın yerel görünüme dayalı yüz tanıma yaklaşımı üzerindeki etkisi gözlenmektedir. Yerel görünüm tabanlı yöntem, yüz hizalama uygulandığında hem görünür hem de termal görüntülerde çok daha iyi yüz tanıma sonuçları vermiştir. Farklı hibrit modeller oluşturulmuş ve birbirleri ile karşılaştırılmıştır. Bu amaçla sırasıyla Arcface ve görüntü dönüştürücü modeller öznitelik çıkarım aşamasından çıkarılmıştır. Böylece, iki farklı modele sahip hibrit kombinasyonlar oluşturulmuştur. Deneysel sonuçlara dayanarak, üç farklı modeli içeren hibrit yaklaşımın hem görünür hem de termal görüntüler üzerinde en iyi sonuçları verdiği gözlemlenmiştir. Sonuç olarak, bu üç farklı modelin tek bir yapıda başarıyla birleştirilebileceği kanıtlanmıştır.