Algısal Öznitelikler Kullanarak Sesten Otomatik Duygu Durum Tanıma

thumbnail.default.alt
Tarih
2014-02-12
Yazarlar
Sezgin, Mehmet Cenk
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Konuşmacıların kısa ve orta vadeli duygu hallerinin otomatik kestirimi, hızla gelişmekte olan insan-bilgisayar kullanıcı arayüzü tasarımında ele alınan zorlu bir problemdir. Tez kapsamında, konuşma verisindeki kısa ve orta vadeli duygu hallerini kapsayan duygu ve uykululuk durumlarını sezme problemi araştırılmıştır. Bu probleme yönelik olarak farklı ortamlarda kaydedilen konuşma verisinden otomatik duygu sınıflandırma gerçeklemede kullanılabilecek yeni ses öznitelikleri önerilmektedir. Bu öznitelikler telefon hattı üzerinden iletilen sesin algısal kalitesini ölçmeyi amaçlayan ITU BS.1387 standardını temel almaktadır. Sınıflandırıcı çıkışında bulunan değerler geliştirilen özel bir oylama algoritması kullanılarak karara dönüştürülmektedir. Konuşmacıların orta vadeli duygu durumlarından olan uykululuk halini sezebilmek amacıyla, algısal öznitelikleri kullanan iki sınıflı bir sınıflandırıcı tasarlanmıştır. Mevcutlardan farklı olarak önerilen öznitelikler frekans, zaman maskeleme ve algısal seslilik modelleri kullanarak sesin spektral ve zamansal içeriğini başarıyla modelleyebilmektedir. Önerilen öznitelikler ile uykulu ve uyanık durumlar arasındaki farkı sezmek için öznitelik-öbekleme tekniği kullanılarak uykululuk durumlarındaki istatistiksel sapmaları modelleyen bir sözcük-öğrenme gerçeklenmiştir. Önerdiğimiz çözüm literatürdeki çalışmalarla (Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis) kıyaslandığında, EMO-DB veritabanında %7-16 aralığında ve VAM veritabanı için %7-11 oranında performans iyileşme gözlenmiştir. Diğer yandan SLC veritabanındaki sonuçlara göre de, uyku durumu sezmede mevcut referanslara göre %20 iyileşme sağlanmıştır. Sınıflandırıcı olarak Destek Vektör Makinası, Gauss Karışım Modelleri ve Öğrenimli Vektör Nicemleme kullanıldığında, önerilen öznitelikler ile literatürdeki sınıflandırma başarımının üzerine çıkıldığı ve aynı zamanda hesaplama karmaşıklığının azaldığı gösterilmektedir.
Automatic detection of short term and medium term speaker states is a challenging problem in the design of recently developed human-computer-interaction systems. In the context of the thesis, we deal with audio emotion detection and sleepiness detection from speech that constitutes short term and medium term speaker states, respectively. We introduce a new set of acoustic features for automatic emotion classification from audio. The features are based on the perceptual quality metrics that are given in perceptual evaluation of audio quality known as ITU BS.1387 recommendation. A soft-majority voting decision rule that strengthens the conventional majority voting is proposed to assess the classifier outputs. In order to efficiently detect the medium term speaker states, we propose a two-class classification scheme with the perceptual features for sleepiness detection. Unlike the conventional methods that rely on the linguistic content of speech, we work with prosodic features extracted by psychoacoustic masking in spectral and temporal domain. Compared to the state-of-the-art systems including Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis, it is shown that the emotion recognition rates are improved between 7-16% for EMO-DB and 7-11% in VAM for ‘all’ and ‘valence’ categories. Recall rates reported based on Karolinska Sleepiness Scale (KSS) for Support Vector Machine (SVM) and Learning Vector Quantization (LVQ) classifiers show that the developed system enables monitoring sleepiness efficiently with a lower complexity compared to the reported benchmarking results for Sleepy Language Corpus (SLC).
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
Duygu durum kestirimi, uyku durumu sınıflandırma, algısal ses öznitelikleri, frekans maskeleme, insan-bilgisayar etkileşimi, algısal seslilik, Emotion detection, sleepiness detection, perceptual features, human-computer interaction, psychoacoustic masking
Alıntı