Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı
Özet
Hesaplamalı biyoloji alanında sınıflandırma problemleri için makine öğrenme
teknikleri sıkça ve geniş şekilde kullanılmaktadır. Bu teknikler, girdi olarak sabit
uzunluklu nitelik vektörleri istemektedir. Bilindiği üzere proteinler farklı uzunluklara
sahip olduklarından dolayı, tüm protein dizilimlerini sabit sayıda nitelik ile göstermek
gerekir.
Bu amaçla geliştirilen etkili yöntemlerden biri protein dizilimlerinin n-peptit
birleşimleridir. Yöntem n uzunluktaki her alt dizginin dizilim içerisindeki görülme
yüzdesini ifade eder. Alan karmaşıklığını azaltmak amacıyla, n’nin artan değerleri
için, kullanılan aminoasit alfabesi, sonuç vektörün günümüz bellek kaynaklarıyla
uyumlu olmasını sağlayacak şekilde düzenli olarak küçültülmüştür.
Kullanılan bu çözümde birleşime ait bütün özellik girdileri sadece bir sınıflandırıcıya
toplu olarak verilmekteydi. Bu tezde, bu özellik girdileri n-peptit birleşimlere ve
küçültülen amino asit alfabelerine göre farklı gruplara ayrılıp, farklı sınıflandırıcılara
verilmiştir böylece soyutlanarak daraltılan arama uzayında, gezinen birden fazla
tekniğe, bir üst sınıflandırma yaklaşımı denenmiştir. Amaç doğru şekilde yakınsanan
ve bizi birbirinden farklı çözüm bölgelerine ulaştıran tekniklere üstsel sınıflandırma
yaklaşımı ile daha iyi sonuçlar alabilmektir. Bu yaklaşımda farklı sınıflandırıcıların
çıktı değerlerini değerlendirmek üzere ortalama alma, ağırlıklı ortalama alma ve
öğrenme kümesinde en başarılı olanı seçme gibi değişik durumlar karşılaştırılmıştır.
Her bir yöntem hesaplamalı biyolojinin önemli ve güncel problemlerinden biri olan
uzak homoloji tespiti üzerinde test edilmiş ve sonuçlar karşılaştırmalı olarak
sunulmuştur.
Sonuçlara bakıldığında eğitim kümesinde en başarılı olan sınıflandırıcının sonucunun
doğru kabul edildiği durumun diğerlerine göre daha etkili olduğu gözlenmiştir.
Sonuçlar arasındaki istatistiksel anlamlılığı dikkatlice incelemek için tüm yöntemler
arasında öğrenci T-testleri yapılmış ve testlerin sonuçları yorumlanmıştır. Denenen
bütün üst sınıflandırma yaklaşımları yalnız bir sınıflandırıcı kullanılan duruma göre
daha etkili bellek kullanımına sahiptir. Destek vektör makineleriyle test edilen bu üst
sınıflandırma yaklaşımının sadece uzak homoloji tespitinde değil diğer sınıflandırma
problemlerinde de başarılı olacağı düşünülmektedir.