Algısal Öznitelikler Kullanarak Sesten Otomatik Duygu Durum Tanıma

dc.contributor.advisor Günsel, Bilge tr_TR
dc.contributor.author Sezgin, Mehmet Cenk tr_TR
dc.contributor.authorID 10024624 tr_TR
dc.contributor.department Telekomünikasyon Mühendisliği tr_TR
dc.contributor.department Telecommunication Engineering en_US
dc.date 2013 tr_TR
dc.date.accessioned 2014-01-14 tr_TR
dc.date.accessioned 2015-07-13T10:30:07Z
dc.date.available 2015-07-13T10:30:07Z
dc.date.issued 2014-02-12 tr_TR
dc.description Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013 tr_TR
dc.description Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2013 en_US
dc.description.abstract Konuşmacıların kısa ve orta vadeli duygu hallerinin otomatik kestirimi, hızla gelişmekte olan insan-bilgisayar kullanıcı arayüzü tasarımında ele alınan zorlu bir problemdir. Tez kapsamında, konuşma verisindeki kısa ve orta vadeli duygu hallerini kapsayan duygu ve uykululuk durumlarını sezme problemi araştırılmıştır. Bu probleme yönelik olarak farklı ortamlarda kaydedilen konuşma verisinden otomatik duygu sınıflandırma gerçeklemede kullanılabilecek yeni ses öznitelikleri önerilmektedir. Bu öznitelikler telefon hattı üzerinden iletilen sesin algısal kalitesini ölçmeyi amaçlayan ITU BS.1387 standardını temel almaktadır. Sınıflandırıcı çıkışında bulunan değerler geliştirilen özel bir oylama algoritması kullanılarak karara dönüştürülmektedir. Konuşmacıların orta vadeli duygu durumlarından olan uykululuk halini sezebilmek amacıyla, algısal öznitelikleri kullanan iki sınıflı bir sınıflandırıcı tasarlanmıştır. Mevcutlardan farklı olarak önerilen öznitelikler frekans, zaman maskeleme ve algısal seslilik modelleri kullanarak sesin spektral ve zamansal içeriğini başarıyla modelleyebilmektedir. Önerilen öznitelikler ile uykulu ve uyanık durumlar arasındaki farkı sezmek için öznitelik-öbekleme tekniği kullanılarak uykululuk durumlarındaki istatistiksel sapmaları modelleyen bir sözcük-öğrenme gerçeklenmiştir. Önerdiğimiz çözüm literatürdeki çalışmalarla (Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis) kıyaslandığında, EMO-DB veritabanında %7-16 aralığında ve VAM veritabanı için %7-11 oranında performans iyileşme gözlenmiştir. Diğer yandan SLC veritabanındaki sonuçlara göre de, uyku durumu sezmede mevcut referanslara göre %20 iyileşme sağlanmıştır. Sınıflandırıcı olarak Destek Vektör Makinası, Gauss Karışım Modelleri ve Öğrenimli Vektör Nicemleme kullanıldığında, önerilen öznitelikler ile literatürdeki sınıflandırma başarımının üzerine çıkıldığı ve aynı zamanda hesaplama karmaşıklığının azaldığı gösterilmektedir. tr_TR
dc.description.abstract Automatic detection of short term and medium term speaker states is a challenging problem in the design of recently developed human-computer-interaction systems. In the context of the thesis, we deal with audio emotion detection and sleepiness detection from speech that constitutes short term and medium term speaker states, respectively. We introduce a new set of acoustic features for automatic emotion classification from audio. The features are based on the perceptual quality metrics that are given in perceptual evaluation of audio quality known as ITU BS.1387 recommendation. A soft-majority voting decision rule that strengthens the conventional majority voting is proposed to assess the classifier outputs. In order to efficiently detect the medium term speaker states, we propose a two-class classification scheme with the perceptual features for sleepiness detection. Unlike the conventional methods that rely on the linguistic content of speech, we work with prosodic features extracted by psychoacoustic masking in spectral and temporal domain. Compared to the state-of-the-art systems including Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis, it is shown that the emotion recognition rates are improved between 7-16% for EMO-DB and 7-11% in VAM for ‘all’ and ‘valence’ categories. Recall rates reported based on Karolinska Sleepiness Scale (KSS) for Support Vector Machine (SVM) and Learning Vector Quantization (LVQ) classifiers show that the developed system enables monitoring sleepiness efficiently with a lower complexity compared to the reported benchmarking results for Sleepy Language Corpus (SLC). en_US
dc.description.degree Doktora tr_TR
dc.description.degree PhD en_US
dc.identifier.uri http://hdl.handle.net/11527/7623
dc.publisher Fen Bilimleri Enstitüsü tr_TR
dc.publisher Institute of Science and Technology en_US
dc.rights İTÜ tezleri telif hakkı ile korunmaktadır. Bunlar, bu kaynak üzerinden herhangi bir amaçla görüntülenebilir, ancak yazılı izin alınmadan herhangi bir biçimde yeniden oluşturulması veya dağıtılması yasaklanmıştır. tr_TR
dc.rights İTÜ theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. en_US
dc.subject Duygu durum kestirimi tr_TR
dc.subject uyku durumu sınıflandırma tr_TR
dc.subject algısal ses öznitelikleri tr_TR
dc.subject frekans maskeleme tr_TR
dc.subject insan-bilgisayar etkileşimi tr_TR
dc.subject algısal seslilik tr_TR
dc.subject Emotion detection en_US
dc.subject sleepiness detection en_US
dc.subject perceptual features en_US
dc.subject human-computer interaction en_US
dc.subject psychoacoustic masking en_US
dc.title Algısal Öznitelikler Kullanarak Sesten Otomatik Duygu Durum Tanıma tr_TR
dc.title.alternative Automatic Audio Emotion Detection Based On Perceptual Features en_US
dc.type Doctoral Thesis en_US
Dosyalar
Orijinal seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.alt
Ad:
10024624.pdf
Boyut:
3.4 MB
Format:
Adobe Portable Document Format
Açıklama
Lisanslı seri
Şimdi gösteriliyor 1 - 1 / 1
thumbnail.default.placeholder
Ad:
license.txt
Boyut:
3.14 KB
Format:
Plain Text
Açıklama