Hizalama Ve Sıkıştırma Tabanlı Protein Fonksiyon Öngörüsünde İkinciliyapının Katkısı

thumbnail.default.alt
Tarih
Yazarlar
Filiz, Aslı
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Bilişim Enstitüsü
Institute of Informatics
Özet
Protein fonksiyon öngörüsü, biyoinformatikteki en önemli ve zor problemlerden biridir. Amino asit dizisine ek olarak öngörülmüş veya gerçek ikincil yapı, protein fonksiyon öngörüsü için sıklıkla kullanılmıştır. Fonksiyon öngörüsü için genellikle amino asit ve ikincil yapı dizileri kullanılarak hesaplanan hizalama puanları kullanılır. En çok kullanılan hizalama algoritmalarından biri, uzak proteinlerin benzerliklerini saptamak için çok uygun bir yerel hizalama algoritması olan Smith-Waterman hizalamasıdır. Normalize sıkıştırma uzaklığı (NCD), proteinlerde olduğu kadar müzik, metin, resim, istenmeyen e-posta filtreleme ve hatta fizik gibi alanlarda da kullanılabilen bir diğer uzaklık ölçütüdür. Smith-Waterman hizalama puanları ve NCD fonksiyon öngörüsünde kullanılmış ve NCD'nin tek başına hizalamadan daha kötü performans gösterdiğini, ancak NCD ve hizalama puanlarının birleşiminin her iki ölçütten de daha başarılı olduğu gösterilmiştir. Bu çalışmada, her ikisi de amino asit dizisine ek olarak ikincil yapıyı da içeren Smith-Waterman ve NCD ölçütlerinin birleşiminden yeni bir ölçüt elde edilerek fonksiyon öngörüsünde ikincil yapıdan da faydalanılmıştır. Deneyler sonucunda, ikincil yapının katkısının hem Smith-Waterman hem de NCD ile yapılan öngörülerde iyileşme sağladığı görülmüştür. Birleştirilmiş ölçüt ile yapılan sınıflandırmanın performansı yalnızca NCD puanları ile yapılan sınıflandırmadan daha başarılı olurken, yalnızca Smith-Waterman puanları ile yapılan sınıflandırma her ikisinden daha başarılı olmuştur. Smith-Waterman hizalama puanları ile yapılan sınıflandırma aynı zamanda, hem bir amino asit için hem birincil hem de ikincil yapıyı belirten bileşik bir gösterim üzerinden hesaplanan NCD puanları ile yapılan sınıflandırmadan, hem de bütün Smith-Waterman ve NCD puanlarını içeren nitelik vektörleri ile yapılan sınıflandırmadan daha başarılı sonuç vermiştir.
Protein function prediction is one of the most important and difficult problems in bioinformatics. Predicted or actual protein secondary structure, in addition to amino acid sequence, is often used for function prediction. Usually, alignment scores between amino acid or secondary structure sequences are used to predict protein function. One of the most frequently used alignment algorithms is the Smith-Waterman alignment which is a local alignment algorithm suitable for detecting remote protein similarities. The normalized compression distance (NCD) is another measure of distance that can be used between protein sequences as well as other kinds of data, such as music, text, images, spam filtering, even physics. Smith-Waterman alignment scores and NCD have already been used for function prediction and it has been shown that NCD performs worse than alignment, while combination of NCD and alignment scores outperforms alignment scores only. In this study, the secondary structure is involved in protein function prediction by using a combined similarity metric that includes both Smith-Waterman alignment and normalized compression distance scores that consider the secondary structure in addition to the amino acid sequence. The study shows that using the combined similarity metric outperforms the performance of NCD scores, however using Smith-Waterman scores only outperforms both. It also outperforms the classification made using a notation that jointly represents the amino acid and secondary structure sequences, as well as classification using feature vectors made up from all Smith-Waterman and NCD scores.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Bilişim Enstitüsü, 2008
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Informatics, 2008
Anahtar kelimeler
Protein fonksiyon öngörüsü, NCD, biyoinformatik, Protein function prediction, NCD, Bioinformatics
Alıntı