Social media data valuation model for disaster incidence mapping

thumbnail.default.alt
Tarih
2020-10-16
Yazarlar
Gülnerman Genç, Ayşe Giz
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Graduate School
Lisansüstü Eğitim Enstitüsü
Özet
Social Media is a new age of data sources that emerged in the last decade. Users who have diverse different motivations (such as; entertainment, communicating or promoting) sign up the platforms worldwide. Currently, there is 3.5 billion active social media account worldwide. This growing number of account holders are accepted as human sensors that provide information about their environment. Unlike the traditional sensors, these human sensors have no certainty in their capacity to sense and share the information. In addition, the data provided by human sensors is unstructured. Still, social media is an invaluable data source for studies, especially that require continuous and real-time data widely. Currently, the data is widely used for politics, marketing, and most importantly in crisis management. In this thesis, social media data is assessed for incidence mapping during or shortly after a disaster with the motivation of increasing resilience to the expected major earthquake in Istanbul. The disaster management cycle has four phases as response, recovery, mitigation, and preparation. In the response phase, having real-time data from the affected area is important to properly allocate the resources. The conventional mapping technologies such as remote sensing and photogrammetry have the capacity of detecting the occurrence of a natural hazard however they are not eligible for information retrieval about the impacts of the natural hazards on human life such as emotions, opinions, and emergency situations. At this point, social media become forward as an immediate data source for incidence mapping during the response time of a disaster. Incidence mapping for resources management requires fine-grained data analyses. However, the uncertainty in data capacity, questions in the reliability of chosen techniques for pre-processing, and data bias are the key obstacles to the fine-grained analyses with the use of social media data. In this thesis, social media data is evaluated in terms of these key obstacles for Istanbul City since the data varies to the area that belongs to depending on its own human sensors. The main objective of this thesis is the determination of social media data potential for its use during the response phase of disaster management. There are three sub-objectives in order to reach the main objective; revealing the adequacy of the data for incidence mapping, adapting the pre-processing steps to Turkish language and questioning the reliability of the used filtering and classifying techniques with the quantification of its impacts on mapping, and investigating the intrinsic quality of the data (such as anomalies, trends, and biases) for the further interpretation of the incidence maps. The thesis is composed of three papers tackling these three objectives. Istanbul City is determined as the case area of each paper. In the first paper, the capacity of social media data to detect incidences in a fine-grained spatiotemporal perspective is investigated. For the case, the coup attempt data georeferenced within Istanbul city boundary is used and a series of incidences by the hour is mapped with the hotspots. According to that study, it is revealed that social media data has the capacity to identify an incidence with a fine-grain spatiotemporal resolution. In the second paper, the reliability of the chosen techniques for pre-processing and filtering social media data is researched with its effects on incidence mapping. Two terror attacks data that is georeferenced within Istanbul City is used for the case of this study. The study is not also testing the adaptation of the current pre-processing and filtering techniques to the Turkish language and also proposes a quantitative comparative index for quantifying the spatial reliability of each filtering process. This index named Giz Index which can be replicated for the similarity searches between two incidence maps. It is found in this study, with the proposed methodology for pre-processing and filtering, over 80% of spatial reliability can be achieved for incidence mapping based on social media data. In the third paper, the intrinsic quality of data is researched for the right interpretation of the incidence maps. The study overviews the weekly sampled social media data from each month during a year that is georeferenced within the Istanbul City. The data is assessed from the perspective of data anomaly, trend, and bias with the spatial statistical tests. The study infers that the data has spatial representation bias, anomaly tendency in some parts of the city, the spatiotemporal bias in terms of the time of day and day of the week. The results of the study contribute to the incidence mapping with the reference maps to avoid biased hot spot occurrences or missing information due to less amount of data.
Web teknolojilerinin ve küresel seyrüsefer sistemlerinin gelişmesi ile ölçme, fotoğrametri, uzaktan algılama gibi geleneksel haritalama yöntemlerine bir yenisi eklenmiştir. Bu yeni yöntem; yeni coğrafya ("Neogeography"), ürün; gönüllü coğrafi bilgi ("Volunteered Geographic Information"), üreten; yeni coğrafyacılar ("Neogeographers"), gönüllüler ("Volunteers") ya da insan sensörler ("Human Sensors") olarak adlandırılmaktadır. Gönüllüler tarafından üretilen bu harita; halk katılımlı coğrafi bilgi sistemleleri, salt harita üretimi için çevrimiçi platformları ve sosyal medya platformları aracılığı ile üç farklı motivasyon ve kapsamla üretilmektedir. Halk katılımlı coğrafi bilgi sistemleri (PPGIS), ilk defa 1996 yılında Amerika Ulusal Coğrafi Bilgi ve Analizi Merkezi (NCGIA) toplantısında literatüre geçmiştir. Kent planlamasında iki temel yaklaşım bulunmaktadır. Bunlardan ilkinde, tüm planlama kararlarını plancılar alır ve böylece kararlarda plancılar baskın olur. İkinci yaklaşımda ise, kent planlama kararları alınmadan önce halkın katılımının sağlandığı toplantılarla, halka danışılır ve planlama için tavsiyeleri alınır. Bu tavsiyelerin coğrafi bilgi sistemleri aracılığı ile toplandığı sistemlere halk katılımlı coğrafi bilgi sistemleri denilmiştir. Önceleri kağıt haritalardan halkın kentle ilgili ifade ettiği problemler ve tavsiyeler, bu sayede sayısal haritalar üzerinde ifade edilmeye ve kayıt edilmeye başlamıştır. Web teknolojisinin de gelişmesi ile günümüzde bu tip projeler çevrimiçi platformlar aracılığı ile sunulmakta ve halkın tavsiye, şikayet ve görüşleri alınabilmektedir. Çevrimiçi halk katılımlı haritalama projeleri scistarter, zooniverse ve ushahidi gibi platformlar aracılığı ile tanımlanabilmekte ve yurttaş bilimi olarak da isimlendirilen süreli projeler bu platformlar üzerinden gerçekleştirilebilmektedir. Gönüllü coğrafi verinin ikinci türünde ise halihazır harita üretimi yapılmaktadır. Salt harita üretimine katkıda bulunmak isteyen gönüllüler, Open Street Map, Google Map ya da Here Map gibi çevrimiçi harita sunan platformlardaki eksik ya da güncel olmayan haritaları tamamlamak için yine bu platformlarda sunulan harita üretim ve sunum araçlarını kullanırlar. Sosyal medya, gönüllü coğrafi verinin üretildiği ve sunulduğu en son çevrimiçi platform türüdür. 2020 yılı itibari ile dünyada yaklaşık 3,5 milyar sosyal medya kullanıcısı bulunmaktadır. İnsan sensörü olarak adlandırılan bu kullanıcılar, dünyanın dört bir yanından çeşitli birçok konuda veri sağlamaktadır. Sosyal medya platfomları bu kullanıcı kapasitesi ile gerçek zamanlı, sürekli ve geniş kapsamlı veri sağlama kabiliyetine sahip olmuştur. Halihazırda, sosyal medya verileri, politika, pazarlama ve en önemlisi afet sonrası vaka haritalaması gibi hayati önemi olan konularda kullanılmaktadır. Yer bilimcilerin çalışmaları, İstanbul ilinde büyük bir deprem olacağını işaret etmektedir. Çok sayıda bina yıkım ve hasarına neden olacağı tahmin edilen bu deprem, insan hayatını da etkileyen birçok acil durum vakasını ortaya çıkaracaktır. 18 milyona yakın insanın yaşadığı İstanbul'da bu deprem nedeniyle oluşan acil durumları hızlı bir şekilde gerçek zamanlı olarak haritalayabilecek bir sistem yoktur. Küresel anlamda mevcut olan acil durum çağrı merkezlerinin haritalama ile entegrasyonu ülkemizde de sağlanmış olsa da telekomünikasyon alanında çağrı alma, kabul etme kapasitesi sınırlıdır. Bunun yanında bu çağrıya yanıt verebilme kapasitesi personel kapasitesi ile sınırlıdır. Vaka haritalamasındaki bu gibi yetersizlikler göz önünde bulundurularak, bu tez çalışmasında, sosyal medya verilerinin afet sonrası vaka haritalaması üzerine kullanımı araştırılmıştır. Afet yönetimi döngüsünün, müdahale, iyileşme, zarar azaltma ve hazırlık olmak üzere dört aşaması vardır. Müdahale aşamasında, afet alanı ile ilgili gerçek zamanlı verilere sahip olmak, müdahale kaynakların doğru bir şekilde tahsis edilmesi için önemlidir. Uzaktan algılama ve fotogrametri gibi geleneksel haritalama teknolojileri, doğal afetleri tespit etme kapasitesine sahiptir. Ancak, doğal afetlerin insan yaşamı üzerindeki etkileri (duygu, görüş ve acil durumlar vb.) hakkında bilgi almak için uygun değildir. Sosyal medya, bu noktada bir felaketin müdahale süresi boyunca vaka haritalaması için bir veri kaynağı olarak öne çıkmaktadır. Kaynak yönetimi için vaka haritalaması, ayrıntılı veri analizleri gerektirir. Bununla birlikte, veri kapasitesindeki belirsizlik, ön işleme için seçilen tekniklerin güvenilirliğiyle ilgili sorular ve veri önyargısı, sosyal medya verilerinin kullanımı ile hassas analizlerin önündeki en önemli engellerdir. Bu tezde, İstanbul için üretilen sosyal medya verileri, bu önemli engeller açısından değerlendirilmiştir. İstanbul için yapılan bu özel değerlendirme, sosyal medya verilerinin üretiminde yer alan insan sensörünün bölgeye göre değişmesidir. Bu tezin temel amacı, afet yönetiminin müdahale aşamasında kullanımı için sosyal medya veri potansiyelinin belirlenmesidir. Ana amaca ulaşmak için üç alt hedef belirlenmiştir. Bunlardan ilki, insidans haritalaması için verilerin yeterliliğini ortaya koymaktır. İkinci alt hedef, ön işleme adımlarını Türkçe'ye uyarlamak ve kullanılan filtreleme ile sınıflandırma tekniklerinin haritalama üzerindeki etkilerinin nicelleştirilmesiyle güvenilirliğini sorgulamaktır. Üçüncü hedef ise sosyal medya veri kalitesinin incelenmesidir. Bu kapsamda, sosyal medya verileri ile izlecek bölge için verideki anomaliler, eğilimler ve taraflılıklar belirlenerek, vaka haritalarının daha doğru yorumlanması amaçlanmaktadır. Bu tez çalışması, tezin kapsamındaki her bir amacı elen alan üç makaleden oluşmaktadır. Her makale için İstanbul ili vaka alanı olarak belirlenmiştir. İlk makalede, sosyal medya verileri ile ince taneli (yüksek zaman-mekansal çözünürlüklü) vaka tespit etme kapasitesi incelenmiştir. Bu durumda, İstanbul şehir sınırları içinde coğrafi referanslı darbe girişimi verileri kullanılmış ve sıcak noktalarla saat başına bir dizi olay haritalanmıştır. Bu çalışma, sosyal medya verilerinin, vaka haritalanmasında ince taneli mekansal belirleme kapasitesine sahip olduğunu ortaya çıkmıştır. İkinci makalede, sosyal medya verilerinin ön işlemesi ve filtrelenmesi için seçilen tekniklerin güvenilirliği, vaka haritalaması üzerindeki etkileri ile araştırılmıştır. Bu çalışma için İstanbul'da meydana gelen iki terör saldırısının verileri kullanılmıştır. Çalışma, mevcut ön işleme ve filtreleme tekniklerinin Türk diline uyarlanmasını test etmekte ve ayrıca her bir filtreleme işleminin mekansal güvenilirliğe etkisini ölçmek için nicel bir karşılaştırma endeksi önermektedir. Giz indeksi adı verilen bu mekansal benzerlik indeksi, iki vaka haritası arasındaki benzerlik arayışları için farklı konularda da kullanılabilir. Bu çalışmada, ön işleme ve filtreleme için önerilen yöntemle, sosyal medya verilerine dayalı vaka haritalaması için %80 üzerinde mekansal güvenilirliğe ulaşılmıştır. Üçüncü makalede, İstanbul mekansal alanı için paylaşan sosyal medya verileri incelenmiştir. Bu araştırma ile vaka haritalarının doğru yorumlanması için referans haritalarının üretimi hedeflenmiştir. Çalışma, yılın her bir ayına ait bir haftalık örneklenmiş sosyal medya verilerini gözden geçirmektedir. Örneklenmiş bu veri, uzamsal istatistiksel testlerle veri anomalisi, eğilim ve yanlılık açısından değerlendirilir. Çalışma, verilerin mekânsal temsil yanlılığı, kentin bazı bölgelerinde anomali eğilimi, günün bazı zaman dilimleri ve haftanın bazı günlerine göre mekânsal-zaman yanlılığına sahip olduğunu göstermektedir. Çalışmanın sonuçları, veri yanlılığından kaynaklı olarak sıcak nokta oluşumlarında ve/ veya daha az miktarda veri nedeniyle göz ardı edilme olasılıklarını önlemek için referans haritalarıyla vaka haritalamasına katkıda bulunmaktadır.
Açıklama
Thesis (PhD) -- İstanbul Technical University, Graduate School, 2020
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2020
Anahtar kelimeler
Voluntary contribution , Crowdsourcing , Spatial analysis, Spatial behavior , Spatial cluster , Spatial citizenship , Data mining , Database management, Gönüllü katılım ,Kitle kaynak ,Mekansal analiz , Mekansal davranış ,Mekansal kümelenme , Mekansal vatandaşlık ,Veri analizi , Veri madenciliği , Veri tabanı yönetimi
Alıntı