Indexing & browsing of multimedia content data with MPEG-7

thumbnail.default.alt
Tarih
2001
Yazarlar
İçoğlu, Oğuz
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Institute of Science and Technology
Özet
İletişim ağlarının yaygınlaşması, veri akışının hızlanması ve internetin dünyadaki bilgisayarları ve hatta televizyon, radyo gibi elektronik cihazları birbirine bağlaması görsel ve işitsel bilginin sayısının giderek artmasına neden oldu. Bu artan bilgi miktarı günlük hayatımızı zenginleştirmesine rağmen, aynı zamanda önemli bir sorunu da beraberinde getirdi: Hızlı ve kolay bir şekilde istenen bilgiye ulaşma. Bilginin miktarı artıkça, istenen bilgiye erişim giderek zorlaşmaya başladı. Günümüzde interneti yaygın ve kullanılabilir yapan en büyük faktör, istenilen bilgiye ulaşılabilmesini sağlayan arama motorlarıdır. Ancak bu yazılımlar kullanıcıların sadece yazılı metin üzerinde bilgi aramasına yardımcı olabilmektedir. Görsel ve işitsel veriler üzerinde aynı şekilde verimli arama yapmak mümkün değildir. Bunun en büyük nedeni bu veriler üzerinde belirli tanımlayıcıların olmamasıdır. Örnek olarak "Terminator II" filminde geçen motorsikletin resmini bulmak oldukça zordur. Ayrıca bu istekler sadece veritabanlan üzerinde arama yapmakla da sınırlı değildir. Günümüzde yüzlerce kanal yayınlayan televizyon yayın şirketleri hizmet vermektedir. Bu yayınlar üzerinde "bu hafta gösterilecek macera filmlerinin fragmanlarını izleme" gibi istekler kolay bir şekilde cevaplanamamaktadır. Ekim 1996'da Hareketli Görüntüler Uzman Grubu (Moving Pictures Expert Group - MPEG) bu sorunlara bir çözüm üretmek amacıyla yeni bir standartın geliştirmesine başladı. MPEG ailesinin bu yeni üyesi: "Çoğulortam Verilerini Tammlama Arayüzü" ya da diğer adıyla MPEG-7, görüntü ve ses verilerinin tanımlanması konusundaki kısıtlı çözümleri genişletmiştir. Bu amaçla MPEG-7, temel görüntü ve ses özelliklerini tammlayan "Tanımlayıcılar" (Descriptor - D) ve bu tanımlayıcıların yapışım ve aralarındaki ilişkileri belirleyen "Tanımlama Şemaları" (Description Scheme - DS) geliştirmiştir. MPEG-7 ayrıca bu Tanımlama Şemalarının kodlanmasında kullanılacak standart bir Tanımlama Dili de geliştirmiştir (Description Definition Language - DDL). Bu gelişmeler, görsel ve işitsel veriler üzerinde indeksleme yapmayı ve daha sonra bu indeks yapıları üzerinde arama işlemlerini mümkün kılmaktadır. MPEG-7 kodlaması yapılmış veriler üzerinde belirli bir bilgiyi aramak ya da büyük miktarda veriler üzerinde istenmeyenleri elemek (fıltreleme) mümkündür. Bu veriler hareketsiz görüntüler, grafik, 3 boyutlu modeller, ses, konuşma, video ya da bunların birkaçının birleşimi şeklinde olabilir. MPEG-7 grubu içinde Tanımayıcı Dili'nin XML tabanlı olmasına karar verilmiştir. Bunun en büyük nedeni XML dokümanlarının platformdan bağımsız olması ve dilin xııı yeni veri tiplerinin geliştirilmesine imkan sağlamasıdır. Bu şekilde farklı ve birbirinden türeyen Tanımlama Şemalarının geliştirilmesi mümkün olmuştur. MPEG-7 içinde Tanımlayıcılar ve Tanımlama Şemaları şu şekilde gruplanmıştır: İşitsel Tanımlayıcılar: Sadece ses verileri üzerinde temel özelliklerin tanımlanmasını sağlayan yapılardan oluşur. Bu yapılar ritim, konuşma ya da ses efektleri gibi özelliklerin standart bir şekilde kodlanmasını sağlar. Görsel Tanımlayıcılar: Sadece görüntü verileri üzerinde temel özelliklerin tanımlanmasını sağlayan yapılardan oluşur. Bu yapılar renk, şekil ya da video görüntüleri üzerinde hareket gibi özelliklerin standart bir şekilde kodlanmasını sağlar. Çoğulortam Tanımlama Şemaları: Çoğulortam verilerinin genel olarak tanımlanmasını sağlar. Görsel ve işitsel tanımlayıcılar kullanılarak verinin yapısına ait düşük seviyeli kodlama yapılacağı gibi (renk, şekil.. vb), verinin anlamına ait üst seviyeli kodlama yapmak da mümkündür (verinin yaratıcısı, başlığı, yönetmen, oyuncular..vb). Düşük seviyeli tanımlayıcıların çoğunu bilgisayarda görü teknikleri ile otomatik olarak çıkartıp kodlamak mümkün olabilirken, yüksek seviyeli tanımlayıcıların manuel kodlanması gerekmektedir. Bu amaçla geliştirilen arayüzler sayesinde bu işlem yarı-otomatik yapıya kavuşturulabilir. Çoğulortam Tanımlama Şemalarını 4 ana grupta toplamak mümkündür. Her grup kendi içinde bir ya da birkaç temel Tanımlayıcı Şeması ve ondan türetilerek yaratılan diğer özelleşmiş Tanımlama Şemalarından oluşmaktadır: > Veri Yönetimi: Verileri tanımlayan ve sınıflayan ana bilgilerin kodlandığı Tanımlama Şemalarından oluşur. Bu bilgiler, otomatik olarak çıkarılması mümkün olmayan, verinin yaratıcısı tarafından kodlanması gereken bölümlerdir. Örnek olarak bir filmin adı, türü, formatı, üretim tarihi, yönetmeni, oyuncuları verilebilir. > Veri Tanımlama: Verilerin yapısal ve anlamsal bilgilerinin kodlandığı Tanımlama Şemalarından oluşur. Yapısal Tanımlayıcılar verinin tamamım ya da alt parçalarım İşitsel ve Görsel Tanımlayıcılar yardımıyla fiziksel özelliklerine göre tanımlarlar (renk, şekil.. vb). Anlamsal Tanımlayıcılar ise veri içindeki nesneleri (insan, eşya..vb), nesneler arasındaki ilişkileri ve bu nesneler üzerinde meydana gelen olayları anlatır. Örnek olarak bir konserin tanımlanması verilebilir: "14 Haziran akşamı Mydonose Showland'de Rus ordu korosu Tarkan'ın şarkılarını söyledi" gibi.. > Tarama ve Erişim: Verilerin belirleyici özelliklerine göre özetlenmesini ve indekslenmesini sağlar. Bu özellikler bazında yapılan aramalarla verinin istenen bölümüne erişmek mümkün olur. > Kullanıcı Seçenekleri: Kullanıcının görsel ve işitsel veri üzerinde gerçekleştirebileceği işlemleri tanımlar. Ayrıca kullanıcının seçeneklerinin tarihçesini tutarak hem otomatik kullanıcı seçeneklerinin oluşturulmasında hem de servis sağlayıcı şirketlerin kullanıcı tercihlerini takip etmesinde yardımcı olur. xıv Yukarıda MPEG-7'nin amacı ve genel yapısı özetlenmiştir. Bu tezin amacı ise MPEG-7'nin geliştirdiği standart yapıları incelemek ve bu yeni standartm özelliklerini kullanarak çoğulortam verileri üzerinde indeksleme ve arama yapmaktır. Bu amaçla araştırma boyunca "Çoğulortam İndeksleme ve Tarama Sistemi" adıyla bir uygulama yazılım geliştirilmiştir. Bu sistemin amacı MPEG-7'nin Tanımlama Şemalarını kullanarak tümleşik bir veri indeksleme ve tarama mekanizması kurmaktır. Sistemin ana yapısı Kullanıcı Seçenekleri ile Tarama ve Erişim Tanımlama Şemalarının eşleştirilmesine dayanmaktadır ve birbirlerine entegre çalışan üç farklı modülden oluşmaktadır: "Çoğulortam Verilerinin îndekslenmesi", "Kullanıcı Seçeneklerinin Çıkarılması" ve "Filtreleme & Tarama". Çoğulortam Verilerinin îndekslenmesi: Veri üzerinde özet çıkarma ve indeksleme işlemi bu modülde gerçeklenir. İndeks bilgileri MPEG-7 kodlanarak Tarama ve Erişim Tanımlacı Şemalarına dönüştürülür. Kullanıcı Seçeneklerinin Çıkarılması: Kullanıcın veri üzerinde arama yapmak istediği kriterler bu modülde bir arayüz aracılığıyla girilir ve MPEG-7 kodlanarak Kullanıcı Seçenekleri Tanımlacı Şemalarına dönüştürülür. Filtreleme & Tarama: Bu modülde Kullanıcı Seçenekleri ile Tarama ve Erişim Tanımlama Şemalarının birebir eşleştirilerek kullanıcının erişmek istediği veriler elde edilir ve kullanıcıya sunulur. Kullanıcı bu özet bilgilerden çoğulortam verisinin istediği bölümüne erişebilir. Bu üç modülün tümleşik çalıştırılması ile çoğulortam verileri üzerinde indeksleme ve tarama yapabilen bir sistem elde edilmektedir. Bu sistemin en büyük özelliği geniş kullanıcı isteklerine cevap vermesi ve Java & XML geliştirme araçlarını kullanarak platformdan bağımsız çalışma özelliğine sahip olmasıdır. Zaten MPEG-7'nin amacı platformdan bağımsızlığın sağlanması ve standart bir yapının kullanılması ile farklı uygulama programlarında ortak verinin işlenebilmesidir. Bu sayede farklı uygulama alanlarında (görüntü/haber arşivlerinin saklanması ve taranması, Dijital Yayın şirketlerinin kullanıcı hizmetlerinin geliştirilmesi..vb) ve farklı platformlarda (PC, interaktif TV, uydu alıcı.. vb) bu yeni standartı kullanmak mümkün olabilecektir.
The last decade has experienced a rapid increase of digital audio-visual information because of the Internet's popularity. Although increasing availability of potentially interesting information has enriched our lives (like e-mail or World Wide Web), the overwhelming amount of information also raises a fundamental problem: How fast and easily can desirable information be made available? The more interesting, specific and useful material available, the harder it is to locate. A noticeable indicator of the existing tension between humans and the vast amounts of information available lies in the popularity of search engines available on the Web. Unfortunately, current solutions let users only search for textual information. Identifying audio-visual information proves difficult, as no generally recognized description of this material exists. In general, it is not possible to efficiently search the Web, for example, a picture of the motorbike from "Terminator II," or for a sequence where King Lear congratulates his assistants on the night after the battle, or for "twenty minutes of video according to my preferences of today." Furthermore, the question of identifying content is not restricted to database retrieval applications, the problem applies equally to other areas. For instance, people are promised a world of 500-plus broadcast television channels, which will evidently make it harder to select a potentially interesting channel. In October 1996, the Moving Pictures Expert Group (MPEG) started a new work item to provide a solution to the questions described above. The newest member of the MPEG family, called the Multimedia Content Description Interface (MPEG-7), extends the limited capabilities of proprietary solutions in identifying content that exists today, notably by including more data types. In other words, MPEG-7 aims to standardize a core set of quantitative measures of audio-visual features, called Descriptors (D), and structures of descriptors and their relationships, called Description Schemes (DS) in MPEG-7 framework. MPEG-7 also standardizes a language; the Description Definition Language (DDL), that specifies Description Schemes to ensure flexibility for wide adoption and a long life. These developments enable indexing and searching for audio-visual material that has MPEG-7 data associated with it. This material may include still pictures, graphics, 3D models, audio, speech, video, and information about how these elements combine in a multimedia presentation. This thesis aims to describe MPEG-7 and to index and browse multimedia content data by means of this new standard. An application software: "Multimedia Indexing and Browsing System" is developed during the research that adopts MPEG-7 Description Schemes into the indexing and browsing processes. The browsing system is based on user preference matching with indexed multimedia data. The application software is comprised of three integrated process levels; xi TX. YÜKSEKelüETİM KÜRÜLÜ 0OKÜİÂTOYÖİ4 i£BK£Z} "Indexing Multimedia Data", "Extracting User Preferences" and "Filtering & Browsing". A software module is developed to implement each process within the application. Indexing Multimedia Data: Multimedia content data is described and summarized in this level in accordance with MPEG-7 standard. The data is indexed by means of visual and audio descriptors. These descriptors utilize audio features (sound, speech..) and visual features (color, texture, keyframe..) in order to summarize the multimedia data, divide it into meaningful partitions, and characterize these partitions with the most distinguishable features. The outcoming data generically contains Multimedia Description Schemes (MMDS) encoded in MPEG-7 format. This module utilizes a specialized group of MMDS; Summarization DS, in order to summarize and index multimedia data. Extracting User Preferences: The user preferences are standardized in MPEG-7 in order to determine indexing criterias of the multimedia data. User Preference Description Schemes are used to describe user's preferences pertaining to consumption of multimedia material. The user preferences are created by the graphical user interface program implemented during the research (user preference extraction module). User Preferences can also be read for edition purposes from a previously created file (written in according to DDL syntax by implementing the User Preference DSs) that contains the general preferences of the user. Filtering and Browsing: In this module, the indexed contents are searched and preference criterias are one by one matched with the index of the media contents. Preference criterias are extracted and transformed into User Preference DS's in User Preference Extraction module, and multimedia contents are indexed and transformed into Summarization DS's in Indexing module. The matching process can be performed with different levels of accuracy like best matches or similar matches in order to meet different user satisfactions. By utilizing the integrated implementation of these three modules, browsing and filtering over multimedia data is enabled by covering wide range of user needs and supplying platform and application independency. MPEG-7 encoded data benefits the portability of DDL that provides the indexed data and user preference data be easily transported to different host and client platforms. Standardization of multimedia content indexing and user preference extraction makes it possible for different applications to process same multimedia information. These capabilities shall facilitate archieving, summarizing and indexing of audio-visual materials with a standard and portable database model. Further step will be tracking these archieves (like movie archieves of film studios, news archieves for news networks..), or browsing indexed multimedia contents (like audio tracks, movies, sport programs..) with different applications in different platforms such as a personal computer, internet TV or a setup-box attached to a TV set.
Açıklama
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2001
Anahtar kelimeler
MPEG-7, Multimedya, İndeksleme, MPEG-7, Multimedia, Indexing
Alıntı