İstatistiksel analiz yöntemleri ve makine öğrenme yöntemleri ile film başarı tahmini
Özet
Film endüstrisinde başarılı bir sinema filmi çekmek için büyük yatırımlar yapılmaktadır. Ancak, büyük yatırımlara rağmen, beklenildiği gibi başarılı olamayan bazı film örnekleri mevcuttur. Bu nedenle, bir filmin başarısını büyük ölçekte tahmin etmek, film yapımcıları için film vizyona girmeden önce çok önemlidir. Bu çalışmada, yapımcılara film yatırımı konusunda bir öngörü sağlamak için sınıflandırmaya dayalı bir tahmin modeli geliştirilmesi amaçlanmıştır. Bir filmin başarısını tahmin etmek için önerilen modelde farklı istatistiksel analiz ve makine öğrenmesi yaklaşımları kullanılmıştır. Esas olarak, hangi film özelliğinin filmin başarısı ile yüksek oranda ilişkili olduğunu ve film başarısını tahmin etmede hangi makine öğrenme tekniğinin daha iyi olduğunu tespit etmeye odaklanılmıştır. Bunun için öncelikle ki-kare (chi-square) analizi ve varyans analizi testi kullanılarak istatistiksel bir analiz yapılmıştır. Ardından sınıflandırma yöntemlerinden Rastgele Orman (Random Forest), Destek Vektör Makinesi (Support Vector Machine) ve Yapay Sinir Ağı (Artificial Neural Network), regresyon yöntemlerinden, Çoklu Doğrusal Regresyon (Multi Linear Regression), Destek Vektör Regresyon (Support Vector Regression), Rastgele Orman Regresyon (Random Forest Regression) gibi farklı makine öğrenme teknikleri kullanılarak karşılaştırmalı bir analiz yapılmıştır. Deneysel sonuçlar, bir filmin başarısının en önemli belirleyicilerinin “oyOrtalamasi”, “oySayisi”, “gelir” ve “butce” olduğunu göstermektedir. Bunun yanı sıra Rastgele Orman, diğer makine öğrenme yöntemleri arasında film başarısını tahmin etmede %96 doğruluk (accuracy) oranıyla başarılı olmuştur. Destek Vektör Regresyon, diğer regresyon yöntemleri arasında film başarı tahmin etmede 1.77 Kök Ortalama Kare Hatası (Root Mean Square Error, RMSE) değeri ile başarılı olmuştur.
In the movie industry, huge investments have been made to shoot a successful motion picture. However, despite large investments, there are some movie examples that cannot be successful as expected. Therefore, predicting the success of a movie is so important on a large scale for the movie producers before releasing the movie. In this study, a classification-based prediction model is aimed to develop for providing a foresight to the producers about investing on a movie. Different statistical analysis and machine learning approaches were used in the proposed model for predicting success of a movie. We mainly focus on detecting which movie attribute is highly correlated with the success of the movie and which machine learning technique is better at predicting the movie success. To do so, firstly a statistical analysis was conducted by using chi-square analysis and analysis of variance test. Then a comparative analysis was performed by using different machine learning techniques including Random Forest, Support Vector Machine and Artificial Neural Network, and Multiple Linear Regression, Support Vector Regression and Random Forest Regression methods as regression methods. The experimental results indicate that the most important predictors of a movie’s success are “voteAverage”, “voteCount”, “revenue” and “budget. In addition to this, Random Forest has become successful by the accuracy of 96% in predicting movie success among other machine learning methods, and Support Vector Regression has become successful by the Root Mean Square Error (RMSE) 1.77 in predicting movie success among other regression methods.