Protein Katlanma Probleminin Çözümü İçin Kaba-taneli Kafes Ve Kafes-dışı Modelleri Kullanan Yapay Zeka Tabanlı Yöntemler

thumbnail.default.alt
Tarih
2015-06-22
Yazarlar
Doğan, Berat
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science And Technology
Özet
Proteinler organizmadaki bütün biyolojik süreçlerde çok önemli işlevler üstlenmektedir. Genetik bilgiden hareketle, proteinlerin bu işlevsel yapılarının nasıl sentezlendiği uzun yıllardır bilinmesine rağmen, sentezlenme işlemi sonucunda proteinlerin kendilerine özgü üç boyutlu fonksiyonel yapılarının nasıl oluştuğu hala bilinmemektedir. Uzun yıllardır cevabı aranan bu probleme literatürde “protein katlanma problemi” adı verilmektedir. Protein katlanma problemi ilk kez Levinthal tarafından 1960’lı yıllarda ortaya atılmıştır. Levinthal’ın çalışmasından önce, proteinlerin bir takım rastgele yapılardan geçerek doğal yapılarına ulaştıkları düşünülmekteydi. Levinthal ise çalışmasında proteinlerin çok daha sistematik bir yapıda katlandığını belirtmiştir. Çünkü ona göre rastgele yapılardan hareketle proteinlerin katlanabilmesi için pratikte mümkün olamayacak kadar çok olasılığın denenmesi gerekmekteydi. Bu basit çıkarım, sonraları bilim insanlarının protein katlanma problemine başka bir açıdan bakmalarına sebep olmuştur. Protein katlanma problemi ile ilgili bir diğer önemli gelişme, Anfinsen’in bir proteinin üç boyutlu yapısının aminoasit dizilimiyle belirlendiğini deneysel olarak göstermesidir. Anfinsen’in bu çalışmasından hareketle proteinin üç boyutlu doğal yapısının minimum serbest enerjili yapı olduğu belirtilmektedir. Protein katlanma problemi üzerinde bu kadar çok uğraşılmasının şüphesiz önemli nedenleri bulunmaktadır. Bir proteinin biyolojik olarak aktif veya fonksiyonel olabilmesi için mutlaka doğal yapısına katlanması gerekmektedir. Örneğin bazı mutasyonlar proteinlerin doğal yapılarına katlanmasını engelleyebilmektedir. Böyle bir durumda proteinler doğru bir şekilde katlanamamaktadır ve bu ise beraberinde bazı hastalıkların oluşmasına neden olmaktadır. Bazı durumlarda ise mutasyon olmaksızın proteinler yanlış katlanabilmektedir. Örneğin insan vücudunda bulunan amyloid- proteinin yanlış katlanması Alzheimer hastalığının klinik belirtilerine neden olmaktadır. Benzer şekilde, Huntingdon ve Parkinson hastalıkları da proteinlerin yanlış katlanması sonucu oluşan hastalıklardır. Protein katlanma probleminin çözülmesi bu gibi hastalıkların tedavisine yönelik hedef ilaçların geliştirilmesi açısından oldukça önemlidir. Günümüzde proteinlerin üç boyutlu doğal yapıları NMR (nükleer manyetik rezonans) ve X-Işını kristolografisi gibi teknolojiler kullanılarak tespit edilebilmektedir. Fakat bu yöntemler oldukça zaman alıcı ve pahalı yöntemlerdir. Dahası, X-Işını kristolografisi ile proteinlerin üç boyutlu yapısını tespit edebilmek için proteinlerin düzgün sıralanmış kristaller oluşturması gerekmektedir ki bu bütün proteinlerin sahip olduğu bir özellik değildir. NMR teknolojisi ile proteinlerin üç boyutlu yapısını tespit edebilmek için ise, proteinlerin çözülebilir olması gerekmektedir ve bu yöntemle büyük proteinlerin yapısı çoğunlukla tespit edilememektedir. Deneysel yöntemlerdeki mevcut zorluklardan dolayı, aminoasit dizilimi belirlenmiş protein sayısı ile üç boyutlu yapıları deneysel olarak belirlenmiş protein sayısı arasındaki uçurum her geçen gün artmaktadır. Bu farkı kapatmak için deneysel yöntemlere alternatif olarak bir takım yöntemlere ihtiyaç duyulduğu aşikardır. Bilim insanları bu gerçekten yola çıkarak, hesapsal yöntemlerle bir proteinin aminoasit diziliminden üç boyutlu doğal yapısını belirlemeye yönelik yöntemler öne sürmüşlerdir. Literatürdeki mevcut hesapsal yöntemler, "Karşılaştırmalı Modelleme" ve "Ab Initio (herhangi bir bilgi olmadan başlama)" olmak üzere iki ana grup altında incelenebilir. Karşılaştırmalı modelleme yöntemleri proteinlerin üç boyutlu yapılarını tespit etmek için yapısı deneysel olarak belirlenmiş proteinlerden faydalanır. Karşılaştırmalı modelleme yöntemlerinden olan homoloji modellemede, benzer aminoasit dizilimine sahip proteinlerin yapılarının da benzer olacağı kabulünden hareketle yola çıkılır. Bu amaçla, yapısı belirlenmek istenen bir proteine, yapısı deneysel olarak belirlenmiş proteinler içerisinden aminoasit dizilimleri en çok benzeyenler (ilgili proteinin homologu olanlar) bulunur. Buradan hareketle ilgili proteinin yapısı tahmin edilir. Benzer şekilde bir diğer karşılaştırmalı modelleme yöntemi olan iş parçası modeli (threading) yönteminde, yapısı bilinen proteinlerin sahip olduğu birtakım ortak üç boyutlu yapılardan (fold) hareketle herhangi bir proteinin üç boyutlu yapısı bulunmaya çalışılır. Bu ortak üç boyutlu yapıların aminoasit dizileri ile yapısı bulunmaya çalışılan proteinin aminoasit diziliminin örtüştüğü yerler tespit edilir ve buradan hareketle ilgili proteinin üç boyutlu yapısı bulunmaya çalışılır. Karşılaştırmalı modelleme yöntemleri iyi sonuçlar vermesine rağmen, birçok proteinin bir homolog proteine sahip olmaması ve aminoasit dizilimleri benzemesine rağmen proteinlerin farklı üç boyutlu yapılara sahip olabilmelerinden ötürü çoğu zaman bu yöntemler yetersiz kalmaktadır. Ab initio yöntemlerinde ise yapısı deneysel olarak bulunmuş proteinlerden faydalanılmaz ve herhangi bir proteinin üç boyutlu yapısı yalnızca aminoasit diziliminden hareketle bulunmaya çalışılır. Ab initio yöntemleri bu anlamda karşılaştırmalı modelleme yöntemlerinden ayrılır. Ab initio yöntemlerinde, proteinlerin üç boyutlu doğal yapısının minimum serbest enerjili yapı olduğu kabulünden hareketle, birtakım enerji fonksiyonları türetilmekte ve protein katlanma süreci bu enerji fonksiyonları yardımıyla modellenmeye çalışılmaktadır. Literatürde bu amaçla geliştirilen modeller kaba-taneli (coarse-grained veya düşük çözünürlüklü) ve tüm-atom modelleri olmak üzere iki ana grup altında incelenebilir. Kaba-taneli modellerde bir proteine ait herbir aminoasit sadece tek bir atommuş gibi düşünülerek problem çözülmeye çalışılmaktadır. Bu modeller, tüm-atom modellerine göre daha yaklaşık modeller olmasına rağmen hesapsal açıdan hızlı oldukları için kullanılmaktadırlar. Tüm-atom modelleri, adından da anlaşılacağı üzere proteine ait aminoasitlerin bütün atomlarını göz önünde bulunduran modellerdir. Bu modeller, kaba-taneli modellere göre daha gerçekçi olmalarına rağmen hesapsal açıdan dezavantajlıdır. Öyle ki, bir proteinin tüm-atom modelleri ile üç boyutlu yapısının bulunması işlemi günler, hatta aylar boyunca sürebilmektedir. Bu tezin ana çerçevesi kaba-taneli yöntemleri içermekle birlikte tezde tüm-atom modellerine ilişkin çalışmalar da yapılmıştır. Tez kapsamında kaba-taneli modellerden, literatürde çok bilinen kafes HP modeli ve kafes-dışı AB model çalışılmıştır. Tüm-atom modeli olarak ise ECEPP kuvvet alanını gerçekleyen model çalışılmıştır. Kafes HP modeli hidrofobik etkinin protein katlanmasında büyük rol üstlendiği gerçeğinden hareketle önerilmiştir. Bu nedenle bu modelde aminoasitler, suyu sevmeyen (hidrofobik) ve suyu seven (polar) aminoasitler olmak üzere ikiye ayrılmıştır. Hidrofobik aminoasitlerin globüler proteinlerin üç boyutlu yapılarında çoğunlukla iç bölgelerde bulunma eğiliminde oldukları bilinmektedir. Bu bilgiden hareketle HP-model, suyu sevmeyen aminoasitleri protein iç bölgesine, suyu seven aminoasitleri dış bölgeye hareket etmeye zorlayan bir model olarak karşımıza çıkmaktadır. Kafes-dışı AB-modeli, kafes HP modeline oldukça benzemekle birlikte farklı olarak bu modelde aminoasitler arası açı değerleri [-180, 180] aralığında değerler alabilmektedir. Yani kafes HP modelinden farklı olarak, bu modelde sürekli uzayda çalışılmaktadır. Bu ise protein yapısının daha doğru bir şekilde bulunmasına imkan tanımaktadır. ECEPP kuvvet alanı, literatürdeki büyük ölçekli kuvvet alanlarına kıyasla daha basit bir kuvvet alanıdır. Kuvvet alanları, bir sistemin benzetimini yaparken enerji fonksiyonunu türetmede kullanılan parametrelerin ve eşitliklerin bütünü olarak düşünülebilir. ECEPP kuvvet alanında, moleküllerin sahip olduğu kovalent bağ uzunlukları ve bağ açıları dengedeki değerlerinde sabit kabul edilip sadece dihedral açıları bulunmaya çalışılmaktadır. Tez kapsamında, kafes HP modelini kullanarak protein katlanma probleminin çözümüne yönelik takviyeli öğrenmeye dayalı bir yöntem önerilmiştir. Literatürde bir çok farklı yöntemle kafes HP modeli kullanılarak protein katlanma problemi çözülmeye çalışılmıştır. Fakat takviyeli öğrenmeye dayalı yöntemlerin kullanımı oldukça yenidir. Literatürde bu problemin çözümüne yönelik önerilen takviyeli öğrenme yöntemlerinin bazı sakıncaları vardır. Bu tez çalışmasında önerilen yeni bir durum uzayı sayesinde bu sakıncalar giderilmiştir. Ayrıca sürü zekasına dayalı bir takviyeli öğrenme yöntemi (Ant-Q) kullanılarak, literatürde önerilen yönteme kıyasla çok daha hızlı bir şekilde sonuca ulaşılmaktadır. Tez kapsamında, kafes-dışı AB model ile kullanılmak üzere, yeni bir sürekli optimizasyon algoritması geliştirilmiştir. Önerilen yeni optimizasyon algoritması Girdap Arama algoritması adıyla literatüre kazandırılmıştır. Girdap Arama algoritması zengin bir matematiksel fonksiyon kümesi üzerinde denenmiş ve oldukça başarılı sonuçlar alınmıştır. Aynı algoritmadan kafes-dışı AB model ile birlikte protein katlanma probleminin çözümü için de faydalanılmıştır. Tez kapsamında kafes-dışı AB model için önerilen bir diğer yenilik, bu algoritmanın enerji fonksiyonu ile ilgilidir. Kafes-dışı AB modelin mevcut enerji fonksiyonu çok fazla yerel minimum noktaya sahip olduğundan algoritmalar bu yerel minimum noktalara kolayca takılabilmektedir. Tez kapsamında mevcut enerji fonksiyonuna yapılan bir modifikasyonla bu problemin önüne geçilmeye çalışılmıştır. Tüm-atom modelinde kullanılan ECEPP kuvvet alanı da sürekli bir enerji fonksiyonuna sahip olduğundan, yine Girdap Arama algoritması kullanılarak proteinlerin üç boyutlu yapıları bulunmaya çalışılmıştır. Bu amaçla PDB veri tabanından elde edilen peptidlerin üç boyutlu yapıları aminoasit dizilimlerinden hareketle bulunmaya çalışılmıştır. Elde edilen sonuçlar, deneysel olarak elde edilen yapılarla karşılaştırılmış ve sonuçların mevcut hesapsal yöntemlerle kıyaslanabilir düzeyde olduğu gözlemlenmiştir.
The protein folding problem is one of the most widely studied problem within the bioinformatics community. Computational methods proposed for the solution of this problem can be categorized into two main groups: Comparative modeling, and ab initio methods. Comparative modeling utilizes existing databases of experimentally determined protein structures to determine the three-dimensional structure of proteins. However, in ab initio methods three-dimensional structure of proteins are determined from solely their amino acid sequences. In the ab initio methods, a number of potential energy functions with different resolutions (including the simple coarse-grained methods and the detailed all-atom models) are proposed to model the interactions that occur among the amino acid molecules of the proteins. A search method is then used to thoroughly explore the energy landscape of the defined potential energy function to find the optimum fold of a protein. In this thesis, new possibilities are searched to find an effective way of improving the search abilities for ab initio methods. Within this scope, both the coarse-grained and all-atom models are studied to determine the protein structures. Coarse-grained methods studied in this thesis include the simplified lattice and off-lattice models. For the hydrophobic polar (HP) lattice model, a new state-space representation of the protein folding problem is proposed for the use of reinforcement learning methods. The proposed state-space representation reduces the dependency of the size of the state-action space to the amino acid sequence length. The proposed method also introduces the concept of "learning" for the protein folding problem in two-dimensional HP model. Thus, at the end of a learning process optimum fold of any sequence of a particular length can be found which is not the case in the existing methods. Moreover, by utilizing a swarm based reinforcement method (Ant-Q algorithm) the optimal fold is found rapidly when compared to the most widely used reinforcement learning algorithm, the Q-learning algorithm. For the off-lattice AB model, a new optimization algorithm, the Vortex Search (VS) algorithm, is proposed to minimize the energy function of this model. The proposed VS algorithm tested on a benchmark numerical function set and it is shown that it performs quite well when compared to the well known optimization algorithms. Another contribution of the thesis presented for the off-lattice AB model deals with the energy function of this model. The energy landscape of the off-lattice AB model leads the algorithms to easily trap into local minimum points. In literature, to escape from local minimum points, usually a combination of the well known optimization algorithms or some extensions of these algorithms are proposed. However, in this thesis rather than an algorithmic improvement, a more smoothed energy landscape is provided for the algorithms by modifying the energy function of the off-lattice AB model. The all-atom model studied in the thesis is based on the ECEPP force field which is combined to the VS algorithm in conjuction with the SMMP software package. A number of proteins are selected from the PDB database to evaluate the performance of the proposed method results of which indicate that the proposed method is comparable to the existing methods.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2015
Anahtar kelimeler
Biyoinformatik; Protein Katlanma Problemi; Optimizasyon; Takviyeli Öğrenme, Bioinformatics; Protein Folding Problem; Optimization; Reinforcement Learning
Alıntı