Observing The Limits Of Visual Bias On Sound Source Localization In Ventriloquism Effect: A Case Study On Sound Engineers Vs. Naive Listeners

thumbnail.default.alt
Tarih
2017
Yazarlar
Tepedelen, Naci
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Social Sciences
Sosyal Bilimler Enstitüsü
Özet
Visual stimuli and its sound stimuli are judged by the human brain together and perceived them as a single event, even if both are assessed by different sensory systems. Also even if these two stimuli are realized in different spatial positions, a human can perceive both stimuli at the same spatial position. Generally, depending on the properties of the stimuli, the visual sensory system dominates the auditory sensory system, and the sound perceptually is heard from the position where the visual is located. This domination of visual system over auditory one is called ventriloquism effect. Past studies have investigated ventriloquism effect with various experiments. While neuroscientists have mostly focused on its effect on human perception, sound engineers have mostly focused on its effects on sound localization. In order to observe the ventriloquism effect, an experimental setup was designed for this thesis, under the guidance of the past studies. The primary goal was to understand the effects of visual stimuli on sound localization, just as it is in the sound engineers’ studies. For this, the experiment was composed of two main parts. The first part included only sound localization questions, while the second part had visual and sound stimuli together to investigate the effects of visual stimuli on sound source localization. The results from these two sections were assessed separately and interdependently. As a result, it was observed that the sound estimations were given under the effect of visual stimuli as in the previous studies. Furthermore, this effect occurred at different rates depending on the influences of experiment variables as previously predicted in the light of past studies. Some of these influencing factors are; characteristic of audiovisual togetherness, subjects' experiences, spatial discordance amount between audio and visual stimuli, directing subjects with the instruction of the experiment, localization accuracy of sound stimuli and reliability of visual stimuli. Variables of this experiment were also prepared considering the influencing factors those mentioned above. The noteworthy results of this experiment were obtained when these variables were compared. For instances, estimations of sound engineers and naive listeners were evaluated as two separate subject groups, taking into account the experience of the subjects on the sound source localization. Audio stimuli with two different frequency characteristics (2000 Hz sine and white noise), was chosen for comparing them in localization accuracy. Also by changing the relationship between audio and visual stimuli, characteristic of togetherness was differentiated and those were compared too If the results of the audio-only test are given at first, there was no significant difference between the sound engineer and the naive listeners. While sound engineers determined the location of the sounds with an error of 1.9? and 3.4? standard deviation, naive listeners determined with an error 2? and standard deviation of 3.2?. Sine wave were localized by both subject groups with a slightly larger angular difference than the noise signal. While the location of the sine wave can be determined with an average of 4,1 ? error and 2,3 ? standard deviation, the noise signal was determined with a 3.2 ? error and a standard deviation of 1.8?. One of the interesting results of the experiment was that the estimations of the sine wave tend to shift towards the center when the actual sound position is taken into account, whereas the noise signal estimates tend to be out of the center. When the audio and visual were presented together with spatial disparity, the first salient thing that was to observe the maximum visual bias rate when the visual stimuli were presented at the center. When the average bias effect of all visual positions is taken into account, sound localization estimations of the sound engineers shifted towards the visual by 15.2%, while the estimations of the naive listeners were 13.7%. Estimations made for sine shifted towards the visual by 18.1%, while the estimations for noise signal were 10.8%. However, only when it is considered that the visual is presented at the central position; sound engineers' sound localization estimations 69,7%, naive listeners 46%; localization estimations of the sine wave 62.9%, and noise signal shifted towards the visual by 52.8%. In the audio-visual test, another experimental variable was created by adding motion relation to the audio-visual togetherness. To put it briefly, the visual stimulus was made to have the characteristic of slowly fade in and fade out, rather than suddenly appearing and disappearing. Along with this, attack and release times were given to audio signal according to the movement of the visual. As a result, visual and audio stimuli, which tend to move together, had more effects on subjects' perception than static audio-visual relation. So estimations were shifted towards the visual position more. When all visual positions and all estimations are taken into account, the visual bias rate created by stimuli with static features was 10.8%, while the visual bias created by motion-related stimuli was measured as 28.7% (this comparison was made only on noise signal estimations). Furthermore, for centrally presented visual stimuli, when the audio engineer's noise signal estimations in the previous test shifted towards the visual by 59.5, in the second it increased to %86,5, also naive listeners’ estimations increased from %46,5 to %79,6.
Bir görsel uyaran ve onun işitsel uyaranı, farklı duyu sistemleri tarafından değerlendirilse bile algısal olarak bu iki uyaranı insan beyni birlikte değerlendirir ve tek bir olay gerçekleşiyormuş gibi algılar. Hatta bu iki uyaran farklı mekansal konumlarda gerçekleşse bile, belli konum açısı farklılıklarına kadar, insan algısında görsel-işitsel olayın aynı konumda gerçekleştiği hissi uyanır. Genellikle uyaranların özelliklerine bağlı olarak görsel duyu sistemi işitsel duyu sistemine baskın çıkar ve sesin görselin bulunduğu konumdan geldiği algısı uyanır. Görselin ses üzerindeki bu üstünlüğüne vantrilok etki denir. Geçmiş çalışmalar çeşitli deneylerle bu etkiyi araştırmışlardır. Genellikle sinirbilimi alanında çalışmalar yapan araştırmacılar bu durumun insan algısı üzerindeki etkisine odaklanırken, ses mühendisleri ise sesin lokalizasyonu üzerindeki etkilerine odaklanmışlardır. Vantrilok etkiyi gözlemlemek adına, geçmiş çalışmalardan yola çıkarak, bu tez için bir deney düzeneği hazırlandı. Öncelikli amaç ses mühendislerinin çalışmalarında olduğu gibi, görsel uyaranların ses lokalizasyonuna etkilerini ölçebilmekti. Bunun için deney iki ana bölümden oluşturuldu. İlk bölüm sadece ses lokalizasyonu soruları içerirken ikinci bölümde işitsel ve görsel uyaranlar birlikte sunularak görselin ses lokalizasyonuna etkileri incelendi. Bu iki bölümden elde edilen sonuçlar ayrı ayrı ve birbirlerine bağlı olarak değerlendirildi. Sonuç olarak önceki çalışmalarda olduğu gibi ses tahminlerinin görsel etki altında verildiği gözlemlendi. Fakat bu etki geçmiş çalışmaların ışığında önceden öngörüldüğü gibi deneyin değişkenlerine bağlı olarak farklı oranlarda vuku buldu. Önceden araştırılan bu değişkenleri kısaca sıralamak gerekirse; işitsel-görsel olayın inandırıcılığı, deneklerin konuyla ilgili tecrübeleri, ses ve görselin kaç derece açı farkıyla sunulduğu, deneklerin deney sırasında nasıl yönlendirildiği, kullanılan sesin konumunun kolay veya zor belirlenebiliyor oluşu, kullanılan görselin kolay veya zor algılanabiliyor oluşu gibi değişkenleri sayabiliriz. Bu çalışmada kurulan deney düzeneği de yukarıda bahsedilen değişkenler göz önüne alınarak hazırlandı ve birbirleri arasında kıyaslamalar yapıldı. Tezin kayda değer sonuçları bu kıyaslamaların sonucunda elde edildi. Ses mühendisleri ve normal dinleyicilerin tahminleri, deneklerin ses lokalizasyonu üzerindeki tecrübeleri göz önüne alınarak iki ayrı grup olarak değerlendirildi. İki farklı frekans karakteristiğine sahip ses sinyali kullanılarak (2000Hz sinüs ve beyaz gürültü), lokalizasyon kesinliği farklı ses uyaranlarının tahmin sonuçları kıyaslandı. Ya da görsel ve işitsel arasındaki ilişki değiştirilerek, birlikteliğin inandırıcılığına müdahale edildi ve iki durumun sonuçları kıyaslandı. Öncelikle sadece ses testindeki sonuçlar verilecek olursa; ses mühendisi ve normal dinleyicilerin performansları arasında kayda değer bir farklılık gözlemlenemedi. Normal dinleyiciler seslerin konumunu 2? hata ve 3,2? standart sapma ile belirlerken, ses mühendisleri 1,9? hata ve 3,4? standart sapma ile belirledi Sinüs sinyali tahminlerinin gürültü sinyaline göre biraz daha büyük bir açı farklılığıyla saptandığı gözlemlendi. Sinüs sinyalinin yeri ortalama 4,1? hata ve 2,3? standart sapma ile belirlenebilirken, gürültü sinyali 3,2? hata ve 1,8? standart sapma ile belirlendi. Deneyin ilginç sonuçlarından biri de sinüs sinyali tahminlerinin gerçek ses pozisyonu dikkate alındığında merkeze doğru kayma eğilimi göstermesine karşılık, gürültü sinyali tahminlerinin merkezden dışarı doğru eğilim göstermesiydi. Ses ve görselin birlikte sunulduğu testte göze çarpan ilk sonuç, görselin merkezden (deneklerin bulunduğu konumun tam karşısından) gönderildiği zaman, görsel önyargının en üst seviyeye çıkmasıydı. Bütün görsel pozisyonların ortalama etkisi dikkate alındığında, ses mühendislerinin ses lokalizasyonu tahminleri %15,2 oranında görsele doğru kayarken, normal dinleyicilerin tahminleri %13,7 oranında kaydığı; sinüs için yapılan tahminler %18,1 kayarken, gürültü sinyali için yapılan tahminlerin %10,8 oranında görsele doğru kaydığı tespit edildi. Ancak sadece görselin merkez pozisyondan gönderildiği durumlar dikkate alındığı zaman ise; ses mühendislerinin ses lokalizasyon tahminleri %69,7, normal dinleyicilerin %46; sinüs sinyalinin lokalizasyon tahminleri %62,9, gürültü sinyalinin %52,8 oranında görsel uyarana doğru kaydığı gözlemlendi. Ayrıca ses ve görsel testinde görsel-işitsel birlikteliğine hareket ilişkisi eklenerek başka bir deney değişkeni oluşturuldu. Kısaca anlatmak gerekirse, görsel uyaran bir anda görünüp yok olmak yerine, yavaşça belirip yavaşça yok olma karakteristiğine sahip kılındı. Bununla birlikte ses sinyali de görselin bu hareketine uygun olarak attack ve release zamanları verildi. Sonuç olarak birlikte hareket etme eğiliminde olan görsel ve işitsel uyaranlar, hareket ilişkisi barındırmayan uyaranlara göre deneklerin algısını daha fazla etkiledi ve tahminler görselin bulunduğu konuma doğru daha fazla kaydı. Bütün görüntü pozisyonları ve bütün tahminler dikkate alındığında, durağan özelliklere sahip uyaranların yarattığı görsel önyargı oranı %10,8 iken, hareket ilişkisine sahip uyaranların yarattığı önyargı %28,7 olarak ölçüldü (bu kıyaslama sadece gürültü sinyali tahminleri üzerinden yapıldı). Ayrıca görsel merkezden gönderildiği zaman ses mühendislerinin gürültü sinyali tahminleri bir önceki testte %59,5’lik görsele doğru kayma yüzdesine sahipken bu testte %86,5’e, normal dinleyicilerin tahminleri ise %46,5’den %79,6’ya kadar yükseldiği gözlemlendi.
Açıklama
Thesis (M.A.) -- İstanbul Technical University, Institute of Social Sciences, 2017
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Sosyal Bilimler Enstitüsü, 2017
Anahtar kelimeler
Sound, Sound Source, Ventriloquism, Ventriloquism Effect, Ses, Ses Araştırmaları, Vantrilok Etkisi
Alıntı