dc.description.abstract | Videolardaki insan eylemlerinin tanınması ve sınıflandırılması için, silüet tabanlı yeni bir öznitelik çıkarma yöntemi önerilmiştir. Bu amaçla, “Hareket Geçmişi Görüntüsü (HGG)” ve “Poli-Siluet (PoS)” adı verilen yeni görüntü şekilleri, yeni bir “Poligonlaştırma Algoritması (PoG)” ve yeni bir “Poligon Kodlama Algoritması (PoC)” geliştirilmiştir. Önerilen yöntem, “Silüet Videolarından (SiVi)” , HGG’lerin elde edilmesi, daha az köşeye indirgenerek poligon formuna dönüştürülmesi ve kodlanmasına dayanmaktadır.
Geleneksel siluet oluşturma yöntemleri siluetlerin gövde bütünlüğünü tek başlarına karşılayamadıklarından, bu sorunu aşmak için, görüntü ve videolarda yer alan insan ve nesneler üzerinde örnek bölütlemesi yapabilen Yolact++’ın kodları değiştirilerek, modelin ürettiği insan maskeleri ile SiVi’ler oluşturulmuştur. Hareketi daha iyi tanımlayan HGG’ler, ardışık olmayan SiVi karelerindeki silüetleri ağırlık merkezlerine göre toplanması ile elde edilir. Poligonlaştırma işlemi, HGG görüntülerine uygulanır.
PoG, eğri şekilleri ve görüntülerin poligonlaştırılmasına dayansa da, çalışması tam olarak bunlara benzemez. PoG, HGG’nin kontur koordinatlarını hızlı bir şekilde istenilen boyuta indirger. Elde edilen poligonlaştırılmış HGG görüntülerine PoS adı verilir. PoC algoritması, PoS görüntüsünü parametre olarak alır ve içerisindeki şeklin sol üst köşe koordinatından başlayarak, saat yönünün tersinde dolanırken, üzerinden geçilen her bir kenar ile bir vektör oluşturur. Bu esnada vektörün, çalışmada belirlenen sekiz adet açısal alandan hangisine iz düşümü olduğunu hesaplayarak, ilgili vektörün kodunu belirler. Bir PoS’un tüm kenar vektörlerinin kodları, dolaşılma sırasıyla dizi içine kaydedildiğinde, o vektörler ile oluşan PoS için poligon kodu elde edilir.Uzun poligon kodları ile kolay işlem yapılabilmek ve farklı uzunlukta vektörler oluşturulabilmek için, genetik algoritmada kullanılan k-mer gruplandırma tekniği benzeri bir yaklaşım çalışmada geliştirilmiştir. Düşünülen işlem poligon kodunun normalizasyonunu sağlamakla kalmamış, aynı zamanda poligon kodunun adaptif bir çekirdeğe göre uyarlanmasını doğurarak çalışmada önceden düşünülmeyen, farklı bir boyuta bu çalışmayı taşındığı görülmüştür. Gruplama k boyu olarak farklı uzunluklar seçilmiş ve poligon kod grupları, k boyuna göre oluşabilecek en büyük kodlara bölünerek normalize edilmiştir.
Önerilen öznitelik çıkarma yöntemi, herhangi bir aksiyon videosunun karelerinden elde edilmiş PoS üzerinde eşit uzunlukta öznitelik vektörlerinin üretilmesini garanti eder, bu durum, boyut sorununun üstesinden gelmek için ekstra boyut indirgeme algoritmalarının kullanımına ihtiyacı ortadan kaldırır.
Farklı k-mer uzunlukları, çalışmada kullanılan veri setleri üzerinden elde edilen öznitelik vektörlerinde denenerek “işlem hızı” ile “sınıflandırma doğruluğu” karşılaştırmaları yapılmıştır. Yöntem, HMDB51 ve UCF101 veri setleri üzerinde denenmiş en iyi performans veren k-mer boyu ve sınıflandırma doğruluk sonuçları, diğer çalışmalarla karşılaştırılmış ve daha başarılı sonuçların elde edildiği görülmüştür. Ayrıca, çalışmaya özgü hazırlanan Yoga veri seti üzerinde HGG görüntülerinin farklı formları ile ek olarak derin ağ uygulamaları da gerçekleştirilmiş ve kayda değer cesaretlendirici sonuçlar alınmıştır.
A new silhouette-based feature extraction method for the recognition and classification of human actions in videos is proposed. For this purpose, new image forms called “Motion History Image (HGG)” and “Poly-Silhouette (PoS)”, a new “Polygonization Algorithm (PoG)” and a new “Polygon Encoding Algorithm (PoC)” have been developed. The proposed method is based on obtaining HGGs from “Silhouette Videos (SiVi)”, converting them to polygon form with fewer corners and encoding them.
Since traditional silhouette creation methods cannot meet the body integrity, to overcome this problem, the codes of Yolact++ were changed and human masks produced by the model is saved as SiVis. HGGs that better describe motion have been obtained by summing the silhouettes in non-consecutive SiVi frames according to bounding box centroids. The polygonization process has been applied to the HGG images.
PoG quickly reduces the contour coordinates of the HGG to the desired size. The resulting polygonized HGG images are called PoS. The PoC algorithm takes the PoS image as a parameter and creates a vector with each edge, starting from the upper left corner coordinate, while tracing in counterclockwise direction. It calculates the related vector code by projecting the vector on to the area that are presented in the study. When the codes of all edge vectors of a PoS are recorded, the polygon code for the PoS is formed.
An approach similar to the k-mer grouping technique in genetic algorithms has been developed in order to be able to process with long polygon codes and to create feature vectors of different lengths. This idea not only provided for the normalization of the code, but also for the adaptation of the code according to an adaptive kernel. Different lengths were chosen as k and groups were normalized by dividing them into the largest codes according to the k length.
The proposed feature extraction method guarantees the generation of feature vectors of equal length on PoS, eliminating the need for the use of extra dimension reduction algorithms to overcome the size problem.
Different k-mer lengths were tested on HMDB51 and UCF101 datasets and comparisons of "processing speed" and "classification accuracy" were made. The results of best k-mer and classification accuracy were compared with studies and it was found that more successful results were obtained. In addition, extra deep network applications were performed out on the yoga dataset created specifically for the study, and remarkable encouraging results were obtained. | en_US |