Tekil değer ayrışımına dayalı on koşullama ile iyileştirilmiş sıkıştırmalı örnekleme verilerinin sınıflandırılması
Abstract
Günümüzde aktarılan, depolanan ve işlenen veri miktarının hızla artıyor olması nedeniyle, veri iletim, saklama ve veriden bilgi üretimi alanlarında yenilikçi çözümlere her geçen gün daha fazla gereksinim duyulmaktadır; Sıkıştırmalı Örnekleme (SÖ) veri aktarım ve depolama, Sıkıştırmalı Sınıflama (SS) da veri sınıflama için yenilikçi çözüm sunan iki yaklaşımdır. SÖ, Shannon örnekleme teoreminde gerek duyulan miktardan daha az sayıda örnekle kayıpsız bir geri çatımı yüksek olasılıkla mümkün kılmaktadır. SS ise SÖ ile üretilen ölçüm uzayında gerçekleştirildiği için işlenen vektörlerinin boyut azaltımından kaynaklı işlem ekonomisi ve operasyon avantajları sağlamaktadır. SÖ’de kullanılan ölçüm matrisine Ön koşullama (ÖK) uygulanmasıyla geri çatım için gerekli örnek sayısı, dolayısıyla iletimi/saklanması gereken veri miktarı azaltılabilmektedir. Ayrıca, ölçüm matrisinin Tekil Değer Ayrışımı (TDA) ile iyileştirilmesinin geri çatım başarımına katkısının deneysel incelemesi de literatürde mevcuttur. Bu tezdeki yenilikler; SÖ’de ölçüm matrisinin TDA ile iyileştirildiği yaklaşımın bir ÖK olarak formüle edilip TDA-ÖK olarak adlandırılması, TDA-ÖK yaklaşımının geri çatım için gerekli örnek sayısını azaltacağının teorik ispatı ve bu neticeyi inceleyen iki farklı Monte Carlo (MC) benzetiminin gerçekleştirilmesi, TDA-ÖK kullanımının SS başarımına etkilerinin üç farkı sınıflama metodu (En Yakın K-Komşu (EYKK), Rasgele Orman (RO) ve Destek Vektör Makineleri (DVM)) kullanarak beş farklı veri kümesi (MNIST, Fashion MNIST, Chinese MNIST, Sign MNIST ve WARD) üzerinde gerçekleştirilen SS uygulamalarıyla incelenmesidir. Tezde elde edilen bulgulardan birisi TDA-ÖK’nın SS sonuçları üzerindeki etkisine dair kesin bir tanımlama yapılmasının mümkün olmadığıdır. Elde edilmiş diğer bir bulgu da SÖ ile üretilen ölçüm verilerinin sınıflanmasında EYKK’nin diğer iki yönteme göre daha iyi sonuç verdiğidir. EYKK ile sınıflamaya dair bir başka bulgu da boyut azaltımında %25 ve %50 sıkıştırma oranları için SÖ’nün Temel Bileşen Analizi’ne (TBA) yakın bir alternatif oluşturmasıdır. Örnek verilebilecek diğer bir bulgu da incelenen boyut azaltım uygulamaları ve veri setleri için RO’nun kesinlik ve anımsama başarımının birkaç istisnai durum hariç sınıflama öncesi boyut azaltımından olumsuz etkilendiğidir.
Compressive Sensing (CS) and Compressive Classification (CC) are the methods targetting transmission, storage, and information extraction fields of data that progressively demand innovative solutions due to the rapid increase in the amount of data transferred, stored, and processed in the modern world. CS enables lossless reconstruction with high probability with fewer samples than is required in the Shannon sampling theorem. In connection with that gain, CC, which runs on the measurement space generated by CS, provides economy in computation and advantages in operation. In the literature, it is well known the number of samples required for reconstruction and the amount of data to be transmitted/stored reduce by applying preconditioning (PC) to the measurement matrix (MM) in CS. In addition, MM enhancement via the Singular Value Decomposition (SVD) and reconstruction performance relation are also experimentally studied in the literature. Merging MM enhancement via the SVD approach and PC by reformulation is the first contribution in this thesis. At the same time, the other contributions are; naming this combined approach as SVD-PC, analytical proof of reduction of the number of required samples in reconstruction by applying SVD-PC in CS, development of two Monte Carlo simulations for probing the proven outcome of SVD-PC, experimental investigation of the effects of SVD-PC on CC via utilizing three different classification methods (K-Nearest Neighbours (KNN), Random Forest (RF) and Support Vector Machines (SVM)) over five different data sets (MNIST, Fashion MNIST, Chinese MNIST, Sign MNIST, and WARD). One of the findings obtained in the thesis is a precise definition of the effect of SVD-PC on CC performance cannot be made according to the results. Another finding from the observations in this thesis is that, KNN gives better results than the other two methods in classifying the data produced by CS. Moreover, as for classification with KNN, another finding is that CS seems like a close alternative to Principal Component Analysis (PCA) for 25% and 50% compression ratios in dimension reduction. Another exemplary finding in the thesis is that the precision and recall performances of RF are adversely affected by the dimension reduction before classification, with a few exceptions.