Video concept classıfıcatıon and retrıeval
Abstract
Search and retrieval in video content is a trending topic in computer vision.
Difficulties of this research topic is two folds; extracting semantic information from
structure of video images is not a simple task and demanding nature of video
content requires efficient algorithms. Semantic information extraction is challenged
by researchers for more than two decades, yet new improvements are still
welcome by the community. Recent burst of efficient computer hardware
architectures has exploited both accuracy and complexity of many algorithms
adding a new dimension to the efficient algorithm selection. In this thesis, our goal
is to classify visual concepts in video data for content-based search and retrieval
applications. To this end, we introduce a complete visual concept classification
and retrieval system. We use two state-of-the-art methods, namely “Bag-of-Words”
(BoW) and “Convolutional Neural Network” (CNN) architecture for visual concept
classification. The performance of the classifiers is further improved by optimizing
the processing pipeline steps. For retrieval, we provide concept- and contentbased
querying of video data and perform evaluations on Oxford Buildings and
Paris datasets. Results show that, a substantial performance gain is possible by
optimizing processing pipelines of the classifiers and deep learning based
methods outperform the BoW.
Video içerikleri içerisinde arama ve geri getirme bilgisayarlı görme alanında
yükselen bir konudur. Bu alandaki zorluklar iki başlık altında toplanabilir; video
imgeleri içerisindeki anlamsal bilginin çıkarımı kolay bir iş değildir ve video
içeriklerini analiz edebilmek için yüksek verimlilikteki algoritmalara ihtiyaç
duyulmaktadır. Bu alanda çalışan araştırmacılar anlamsal bilginin çıkarılması
konusuna 20 yılı aşkın bir süredir eğilmektedir ve bu alandaki iyileştirmelere hala
ihtiyaç duyulmaktadır. Son yıllarda bilgisayar mimarilerinin verimliliğinde yaşanan
artışlar hem algoritmaların başarımlarını hem de karmaşıklıklarını artırmıştır ki bu
da efektif algoritma seçimine yeni bir boyut kazandırmaktadır. Bu tez
çalışmasında, amacımız video verileri içindeki görsel kavramların arama ve geri
getirme uygulamalarına yönelik sınıflandırılmasıdır. Bu amaç doğrultusunda görsel
kavram sınıflandırma ve geri getirme bazlı bir sistem öneriyoruz. Günümüzde
çokça tercih edilen iki görsel sınıflandırma yaklaşımını sistemimize entegre
ediyoruz; “Kelime Kümesi” yaklaşımı ve “Evrişimsel Sinir Ağları” yaklaşımı. Buna
ek olarak, kelime kümesi temsili ve evrişimsel sinir ağları aşamalarında
optimizasyonlar yaparak, öğrenme algoritmalarının başarımlarını artırıyoruz. Geri
getirme için kavram ve örnek tabanlı sorgulama yöntemlerinin gösterimini
yapıyoruz ve literatürde en çok tercih edilen Oxford Buildings ve Paris veri
kümeleri üzerinde sonuçlarımızı görselliyoruz. Sonuçlar gösteriyor ki, kelime
kümesi temsili ve evrişimsel sinir ağları aşamalarında yapılan optimizasyonlar
yüksek performans artışlarını olası kılmaktadır ve derin öğrenme tabanlı metodlar
kelime kümesi yaklaşımından daha iyi sonuçlar vermektedir.