Gen ifade verileri ile işlemsel kanser sınıflandırılması
Özet
Son yıllardaki bilgisayar teknolojilerinde elde edilen gelismeler, özellikle islemci
gücünün artması, önceleri gerçeklestirilebilen sade, dogrusal modeller yerine
fiziksel ve gerçek olayları daha iyi yansıtan; ama daha fazla bellek ve zaman
gerektiren dogrusal olmayan modellerin kullanılmasına imkan yaratmıstır.
Bu çalısma, A. Statnikov’un, mikrodizi gen ifade verileri kullanarak çok kategorili
kanser sınıflandırması ile ilgili çalısması ve bu çalısmadan elde edilmis sonuçlar
üzerine önerilmis olan optimizasyon çalısmalarını kapsamaktadır [1]. Mikrodizi
analizi ile elde edilmis gen ifade verilerinin üzerinde, destek vektör makinesi ile
analiz edilmeden önce, dogrusal ve dogrusal olmayan indirgeme yöntemleri
kullanılarak, verilerin egitilme ve test sürecinin hızlandırılması amaçlanmıstır.
Uygulanması amaçlanan indirgeme yöntemleri, bir dizi algoritmanın yanı sıra, bu
algoritmaların probleme yönelik yeni yorumlamalarıyla yapılmıs, daha sonra bu
yöntemler karmasıklık, kaynak kullanımı ve indirgeme performansı göz önünde
bulundurularak test edilmistir. Böylece, egitim ve test islemlerinin performans ve
basarı oranlarını kabul edilebilir düzeyin üstünde tutmak kosuluyla, veri
kümelerindeki nitelik sayısını küçülterek, islem hızının arttırılması amaçlanmıstır.
Yapılan testlerin sonucunda, gen ifade verilerinin bulundugu veri kümesi üzerinden
yapılan Bagımsız Bilesen Analizi (BBA), Çekirdek Temel Bilesen Analizi (ÇTBA),
z Düsümü Takip Analizi ( DTA) indirgeme algoritmaları üzerine olusturulmus
programların, veri kümesindeki nitelik sayısının asırı yüksek olmasından dolayı
kilitlendigi ya da hafıza yetersizliginden dolayı olagandısı sonlandırıldıgı tespit
edilmistir. Diger algoritmalar olan Temel Bilesen Analizi (TBA), Dogrusal Olmayan
Temel Bilesen Analizi (DOTBA), Kendi Düzenlenen Haritalar (KOH), Dogrusal
Diskriminant Analizi (DDA) ve Korelasyon Analizi (KA) ile yapılan nitelik
indirgemeleri sonucu, karar destek vektör makinesinin egitim sürelerinin degisken
olarak azaldıgı görülmüstür. Buna dayanarak, çalısmada kullanılan veri kümesinin
içerdigi niteliklerin büyük bir kısmının, veri kümesinin destek vektör makinesindeki
egitim ve test performansına çok az etkisi oldugu, ayırt edici özellikler tasımadıgı
veya bazı niteliklerin bir araya gelerek, tüm kümeyi temsil edebilen bir alt grup
olusturabildigini, bu yüzden etkisiz niteliklerin ya da nitelik alt gruplarının indirgeme
algoritmaları kullanılarak orijinal veri kümesinden çıkarılmasının, maliyet ve süre
açısından yararlı olacagı anlasılmıstır.
Recent improvements in computer technologies, especially significant increase in
processing power of central processing units, leads to usage of non – linear
models which represents physical and abstract problems better but require more
memory and time, instead of simple, linear models.
This study focuses on A. Statnikov’s article about multicategory cancer
classification using of microarray gene expression data and optimization
suggestions [1]. Before the training of support vector machines with the gene
expression data which is gathered by microarray analysis, it is intented to
accelerate the training and test speed process with both linear and non – linear
reduction methods. Reduction methods which are intented to be used are both
implemented by using some algorithms and new interpretation of these algorithms.
After that, these methods are tested according to their complexity, resource
allocation and reduction performance. Therefore, by keeping the performance and
success ratios of training and testing process above an acceptable treshold, it is
intented to reduce the feature size in data sets as it will also increase the overall
speed of the process.
The results of the test show that, Independent Component Analysis (ICA), Kernel
Principle Component Analysis (KPCA), Projection Pursuit Analysis (PPA)
reduction algorithms used on data set failed to give any results due to excessive
amount of features in data set by either locking down or terminating itself.
With the usage of other algorithms which are Principle Component Analysis
(PCA), Non – Linear Principle Component Analysis (NLPCA), Self Organizing
Maps (SOM), Linear Discriminant Analysis (LDA) and Correlation Analysis (CA), it
is observed that the training and testing process times of the support vector
machine is reduced variably. Taking this into consideration, most of the the
features of the data set which is used in this study do not have any differentiative
property and therefore have low - level of effect on the training and testing of the
support vector machine. On the other hand, some features may become high –
level effective when combined together and form a sub group feature sets. So, by
eliminating low – level effective features and revealing high – effective sub group
features by feature selection and feature reduction, a significant improvement in
both cost and time consume can be established.
Bağlantı
http://hdl.handle.net/11727/2286Koleksiyonlar
İlgili Öğeler
Başlık, yazar, küratör ve konuya göre gösterilen ilgili öğeler.
-
Küresel krizin Türkiye'nin dış ticaretine etkilerinin analizi
Demirci, Köksal (Başkent Üniversitesi Sosyal Bilimler Enstitüsü, 2016)Küreselleşen dünyada ülkelerin kendilerine özgü veya dış kaynaklı ekonomik problemler dolayısıyla yaşamış oldukları ekonomik krizlerin etkisinin büyük yıkıcı sonuçlar yarattığı bilinmektedir. Bu çalışmada ilk olarak kriz ... -
Sigorta şirketlerinin mali tablolarının analizi
Madran, Merve (Başkent Üniversitesi Sosyal Bilimler Enstitüsü, 2016)Finansal sistemin önemli bir parçası olan sigortacılık sektöründe şirketlerin muhasebe hesapları, finansal tabloları ve bunların yorumlarının önemi büyüktür. Sigorta sektörü özellikli bir sektördür, diğer sektörlerden ... -
Kesikköprü hidroelektrik santrali model türbin tasarımı ve performans iyileştirme analizi
Semerci, Deniz Sarper (Başkent Üniversitesi Fen Bilimleri Enstitüsü, 2016)Bu tez çalışması kapsamında, Kesikköprü Hidroelektrik Santrali’nde halihazırda çalışmakta olan türbinlerin giriş parametreleri olan debi ve düşü değerleri kullanılarak bir Francis türbini tasarımı gerçekleştirilmiştir. ...