Yerel Öznitelikler İle Mamografi Görüntülerinde Doku Yoğunluğunun Sınıflandırılması

thumbnail.default.placeholder
Tarih
2012-07-10
Yazarlar
Kutluk, Sezer
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmada mamografi görüntülerinde göğüs dokusu yoğunluğunun sınıflandırılması amaçlı bir sistem önerilmiştir. Geliştirilen yöntemle görüntüler üç sınıfa ayrılmakta olup bu sınıflar yağlı doku, yağlı-bezel doku ve yoğun-bezel dokudur. Doku yoğunluğunun göğüs kanseri oluşumunda ve kanser tanı sürecinde önemli bir parametre olduğu bilinmektedir. Yapılan çalışmalarda bazı doku yoğunluğu türlerinde kanser oluşma olasılığının diğerlerine göre daha yüksek olduğu belirtilmiştir. Bazı doku younluğu türlerinin de mamografi görüntülerinde tümör ve mikrokalsifikasyon oluşumlarının görünmesini engellediği, dolayısıyla erken kanser tanısına engel olarak tedavi sürecini geciktirdiği belirtilmektedir. Meme kanserinde erken tanının önemi düşünüldüğünde, doku yoğunluğunun sınıflandırılmasının büyük bir öneme sahip olduğu anlaşılmaktadır. Mamografi görüntülerinde doku yoğunluğunun sınıflandırılması bilgisayarlı tanı sistemleri ve içerik tabanlı medikal görüntü arama sistemlerinin performans, doğruluk ve güvenilirliğini arttıracağı ve otomatikleştirilmesine katkıda bulunacağı için bu sistemlerde bir ön işlem bloğu olarak kullanılabilir. Otomatik kitle bulma uygulamalarının hassaslığı artan doku yoğunluğuyla tümör ve mikrokalsifikasyonlar dokunun içine gizlenebildiği için azalmaktadır. Doku yoğunluğu bilgisi kanser oluşumu ve tanı süreciyle ilgisinden dolayı bilgisayarlı tanılama sistemlerinde kullanılarak bu sistemlerin doğruluğu arttırılabilir. İçerik tabanlı medikal görüntü arama sistemlerinde ise, aranacak görüntü kümesini bir ön arama veya ek bir arama parametresi olarak azaltacak ve böylece hem arama doğruluğunu arttıracak, hem de arama getirme iş yükünü ve süresini önemli ölçüde azaltacaktır. Bu çalışmada göğüs dokusunda kitle sezimi ve doku yoğunluğunun sınıflandırılması konulu çalışmalarda sıkça kullanılan MIAS görüntü veritabanı kullanılmıştır. Bu veritabanının kullanılmasındaki bir diğer neden de görüntülerle ilgili ayrıntılı bilginin veritabanını oluşturan grup tarafından sağlanmış olmasıdır. Bu bilgiler her görüntü için doku yoğunluğunu, eğer varsa doku içindeki kitlelerin türünü (iyicil ya da kötücül), büyüklüğünü ve doku içindeki konumunu içermektedir. Bu veritabanındaki görüntüler yağlı, yağlı-bezel ve yoğun-bezel olarak üçe ayrılmaktadır. Bir kişiden sağ ve sol olmak üzere iki mamografi görüntüsü alınmış olup bu veritabanında toplamda 322 görüntü vardır. Mamografi görüntüleri dokusal yapıya sahiptir. Parlaklık, karşıtlık gibi genel görüntü özellikleri ve görsel içerik farklı sınıftan görüntülerde benzer olabilirken, aynı sınıftan görüntülerde de bu özelliklerin farklı olabildiği gözlenmiştir. Bir mamografi görüntüsü incelendiğinde dokudaki dağılımın düzgün olmadığı görülebilir. Bir sınıftaki görüntülerin bazıları başka bir sınıfın görsel özelliklerine sahip olabilmektedir. Burada görsel özelliklerden kast edilen gri düzeyi histogramı ile parlak bölgelerin dağılımı ve yoğunluğudur. Mamografi görüntülerindeki sınıf içi çeşitlilikten ve görüntülerin niteliğinden dolayı global öznitelik çıkarımı yöntemlerinin kullanılması durumunda iyi bir başarım elde edilemeyeceği düşünülmüş ve yerel öznitelik çıkarımı yöntemlerinin kullanılmasına karar verilmiştir. Global öznitelik çıkarımı yöntemleriyle doku içindeki dağılım bilgisi kullanılamayacak, farklı sınıflardaki benzer görsel özelliklere sahip görüntülerin ayırt edilmesi güçleşecektir. Yerel görüntü öznitelik çıkarımı için önerilmiş birçok yöntem mevcuttur. Ölçekten Bağımsız Öznitelik Dönüşümü (SIFT), Hızlandırılmış Gürbüz Öznitelikler (SURF), Gradyan Histogramı (HOG) gibi birçok yöntem bu amaç için kullanılmaktadır. Bu yöntemler görüntünün tamamı yerine yerel inceleme yapıp önemli noktalar bulmaya çalışır. Bulunan her önemli nokta için bir öznitelik vektörü üretilir. Bu öznitelik vektörlerinin tümü veya seçilmiş bir bölümü görüntünün temsil edilmesi ve sınıflandırılması için kullanılabilir. Bu çalışmada Ölçekten Bağımsız Öznitelik Dönüşümü (SIFT) metodu öznitelik çıkarımı amacıyla kullanılmıştır. SIFT algoritmasıyla bir görüntüden çok sayıda öznitelik çıkarılabilir. Çıkarılan öznitelik vektörlerinin her biri 128 boyutludur. Öznitelik çıkarımı için görüntü farklı ölçeklerde incelenerek önemli noktalar bulunur. Görüntünün farklı ölçeklerde incelenmesi için Gauss ların Farkı yöntemi kullanılır. Bu yöntemde görüntüye farklı varyanslı Gauss filtreleri uygulanır. Bu filtrelerin uygulanmasıyla görüntü farklı miktarlarda bulanıklaştırılmış olur. Bu görüntülerin farkı alınarak görüntüdeki kenarlar ve köşeler elde edilir. Bu farkların bazı yöntemlerle elenmesiyle önemli noktalar bulunur. Önemli noktalarda ve komşularında gradyanlar hesaplanır. Her önemli nokta için bir genlik ve yön bilgisi hesaplanır. Bir Gauss penceresi kullanılarak önemli noktaya yakın olan noktaların etkisi arttırılırken, uzak olanlarınki azaltılır. Hesaplanan yön histogramları kullanılarak öznitelik vektörleri elde edilir. Optimal öznitelik seçimi sınıflandırıcı tasarımında çok önemli bir adımdır. Özniteliklerin modellenmesi ve sınıflandırıcıların eğitileceği en iyi öznitelik kümesinin seçimi için öznitelik gruplama yöntemi kullanılmıştır. Bu gruplama öbekleme ile yapılmıştır. Yüksek bir öbek sayısıyla başlanmış ve yakın olan öbekler birleştirilerek optimum öbek sayısı elde edilmiştir. Öznitelik gruplama yönteminin kullanılmasındaki amaç eğitim kümesinin verideki tüm çeşitliliği yansıtabilmesini, her alt gruptan örnekler barındırmasını sağlamaktır. Böylece sınıflandırıcının verideki çeşitliliğin göz önüne alınarak tasarlanması ve test başarımının arttırılması sağlanmış olur. Görüntülerden çıkarılan özniteliklerin sınıflandırılması için üç farklı eğiticili sınıflandırma metodu kullanılmıştır. Bu metodlar Gauss karışım modeli (GMM), destek vektör makinesi (SVM) ve öğrenmeli vektör seviyelemedir (LVQ). Üç farklı yöntem kullanılmasındaki amaç bu problem ve veri kümesi için en uygun sınıflandırıcının bulunmasıdır. Bu sınıflandırıcılar parametrik, parametrik olmayan ve öğrenme tabanlı yaklaşımlarla eğitim aşamasında eğitim kümesinden bir model oluşturur ve sınıflandırma aşamasında hangi sınıftan olduğu bilinmeyen yeni örnekleri sınıflandırır. Gauss karışım modeli yönteminde her sınıf birden çok Gauss dağılımının birleşimiyle modellenmeye çalışılır. Her karışımın parametreleri, yani ortalama vektörleri ve kovaryans matrisleri, Beklenti-En Büyükleme (EM) algoritmasıyla kestirilir. Her sınıf için bir model oluşturulduktan sonra, yeni bir örneğin sınıflandırılması için bu karışımlar kullanılarak birer olasılık değeri hesaplanır. Gözlem en büyük olasılık değerinin elde edildiği sınıfa atanır. Destek vektör makinesi yöntemi iki sınıftaki öznitelik vektörlerinin ortasındaki optimal hiperdüzlemi bulmaya çalışır. Bu yöntem temelde doğrusal olarak ayrıştırılabilen iki sınıfın sınıflandırılması için önerilmiştir; ancak bazı ek işlemlerle daha çok sınıf için, çekirdek fonksiyonlarının kullanımıyla da doğrusal olarak ayrıştırılamayan veri kümelerinde kullanılabilmektedir. Bunun için, doğrusal olarak sınıflandırılamayan veri bir çekirdek fonksiyonuyla doğrusal olarak sınıflandırılabileceği bir uzaya taşınır. Öğrenmeli vektör seviyeleme yönteminde tasarım sınıflandırılmış özniteliklerin öbeklenmesiyle yapılır. Eğitim sırasında özniteliklerin etiketleri bilindiğinden, öbekleme iteratif olarak tekrarlanarak veri öğrenilir. Her öbek birden çok kodvektörü ile tanımlanır. Bu öğrenme bir ödül-ceza sistemine dayanır. Eğitim kümesindeki öznitelik vektörlerinin hangi sınıfa ait olduğu bilindiğinden, bir özniteliğin atandığı kodvektörü eğer doğru sınıftansa ödüllendirilir, yanlış sınıftansa cezalandırılır. Böylece, iteratif olarak en uygun öbek yapısına ulaşılmaya çalışılır. Bu yöntemde bir sınıfın temsil edileceği kodvektörü sayısının ve iterasyon sayısının belirlenmesi önemlidir. Çeşitli deneylerle geliştirilen sistemin sınıflandırma doğruluğu ve eğitim kümesinin boyutuna bağlılık gibi özellikleri sınanmıştır. Dört farklı deney kurgulanmış ve bunlarla sınıflandırıcıların başarımı değerlendirilmiştir. 10 katlı çapraz geçerlilik testi ile ayrık eğitim-test kümelerinin kullanıldığı öznitelik tabanlı deneylerin sonuçları raporlanmıştır. 10 katlı çapraz geçerlilik testinin amacı, verinin her bölümünü eğitim ve test aşamalarında kullanmak, elde edilen sonuçların ortalamasının alınmasıyla verideki uç değerlerin etkisini azaltmaktır. Eğitim kümesinin büyüklüğü daha büyük veri kümeleriyle yapılan deneylerle gözlenmiş ve raporlanmıştır. Bunun için eğitim kümesine yeni öznitelik vektörleri eklenmiş ve aynı öznitelik vektörleri tekrar tekrar eğitim için kullanılmıştır. İki sınıflı sınıflandırma deneyleriyle sınıfların ayrıştırılabilme seviyeleri ile birbiriyle çokça karıştırılan ve iyi ayrılan sınıflar belirlenmiştir. Üç sınıflı sınıflandırma yapılarak da genel başarım raporlanmıştır. Gauss karışım modeli sınıflandırıcısı kullanıldığında elde edilen sonuçlar kabul edilebilir sınırların altında kalmıştır. Bunun sebeplerinden biri, hesaplama karmaşıklığı arttığı için bir karışımın oluşturulduğu bileşen sayısı sınırlanmıştır. Bu da verinin iyi modellenememesine yol açmıştır. Eğitim kümesindeki öznitelik vektörü sayısı az olduğunda destek vektör makinesi diğer yöntemlerden daha iyi başarım sağlamıştır. Öğrenmeli vektör seviyeleme yöntemi eğitim kümesi küçük olduğunda düşük başarım gösterse de genişletilmiş eğitim kümesi kullanılarak tasarlandığında başarımı oldukça yükselmektedir. Eğitim kümesi genişletilirken uygulanan veri tekrarlama işlemi öğrenmeli vektör seviyeleme yönteminin başarımını olumlu yönde etkilemiştir. Daha çok sayıda öznitelik vektörünün öğrenilmesi için kodvektörü sayısının ve iterasyon sayısının da arttırılması gerektiği gözlenmiştir. Eğitim kümesini genişletmenin destek vektör makinesi yönteminde başarımı çok değiştirmediği, veri tekrarlamanın öğrenmeli vektör seviyeleme yöntemindeki kadar etkili olmadığı belirlenmiştir. Gauss karışım modeli ile test süreleri arttığından genişletilmiş eğitim kümesi kullanılmamıştır. İki sınıflı sınıflandırıcılarla yapılan testlerden sonra, destek vektör makinesi ve öğrenmeli vektör seviyeleme yöntemleri kullanılarak üç sınıflı sınıflandırma testleri yapılmıştır. Bu testler yine genişletilmiş eğitim kümesi üzerinde, 10 katlı çapraz geçerlilik testi yöntemiyle yapılmıştır. Destek vektör makinesi kullanıldığında başarım düşerken, öğrenmeli vektör seviyeleme yöntemi kullanıldığında başarımın iki sınıflı durumda elde edilen sonuçlara yakın olduğu gözlenmiştir. Deney sonuçları geliştirilen sistemin bilgisayarlı tanılama ve içerik tabanlı medikal görüntü arama getirme sistemlerinde kullanılabileceği konusunda umut vericidir.
In this study a breast tissue density classification system is proposed. Tissue density is known to be in high correlation to the development and diagnosis of breast cancer. The probability of a malignant mass occuring in some types of breast tissue is higher than others. Moreover, some tissue types hide the masses in mammographic images. Thus early detection of cancer, which has a key role in diagnosis, is obstructed. Computer aided diagnosis (CAD) and content based medical image retrieval (CBMIR) systems may take advantage of breast tissue density classification since it can augment the performance, reliability and automaticity of these systems. Automatic abnormality detection systems get insensitive with increasing breast tissue density since dense tissue may hide tumors and microcalcifications. CAD systems may use tissue density information in determining the method for mass detection. CBMIR systems may use tissue density classification as a pre-elimination step, which decreases the processing time. We use the MIAS dataset for our experiments, which is a widely used dataset in abnormality detection and density classification studies. Another reason for us to choose this dataset is that it provides a detailed groundtruth with annotations of density type and abnormality presence, type and location. This dataset contains mammographic images which are from three tissue density categories, namely fatty, fatty-glandular and dense-glandular. There are 322 images from 161 subjects in this dataset. Mammographic images have a textural structure. Global image characteristics and the visual content in some images from different density classes are similar while some images from the same class have different characteristics. For this reason, we use local image features. We employ the scale-invariant feature transform for the extraction of local image features and apply a bag-of-features representation in order to model the data and select the training data optimally. Classification of the extracted image features are performed using three different supervised classification methods, namely, Gaussian mixture models, support vector machines and learning vector quantization. By evaluating these three classifiers, we look for the optimal classification method for our problem. These methods are used to design classifiers by parametric, nonparametric and learning based approaches. Several experiments were performed and different aspects of the system such as classification accuracy and dependence on the data size were evaluated. Feature based classification results in a 10-fold cross validation scheme as well as in a separate training and test sets scheme are reported. The effects of data size is observed and reported by using an enlarged dataset. First experiments were performed in a two-class classification scheme in order to determine which classes are separable and which classes are hard to separate. Then three-class classification tests were performed and results are reported in a comparative manner. Our results are promising that the developed system may be used as a building block of computer aided diagnosis and content based medical image retrieval systems.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2012
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2012
Anahtar kelimeler
mamografi, doku yoğunluğu, örüntü sınıflandırma, görüntü işleme, mammography, tissue density, pattern classification, image processing
Alıntı