Zaman serisi tahmin modellerinde veri analizi ve model seçimi
Özet
Zaman serileri bir değişkenin ardışık gözlem değerlerini içeren veri kümeleridir. Takdir edilecektir ki bu gözlemler zaman içerisinde çevresel veya sistematik etkiler nedeniyle değişim gösterebilmektedir. Bu nedenle zaman serisi modelleri ile tahmin gerçekleştirilirken bütün gözlem kümesi ile modelin eğitilmesi yerine tarihsel olarak sondan geriye doğru gidililerek gözlem verileri bölümlere ayrılabilir. Çalışmada, bu bölümlerden tahmin modeli açısından en alakalı dönemin tespit edilip, eğitim kümesi olarak kullanılması ile gerçeğe daha yakın sonuçlar elde edileceği savunulmuştur. Yapılan araştırmada, eğitim veri kümesinin elde edilmesi için değişim noktası analizi yöntemlerinden CUSUM algoritması kullanılmıştır. Öncelikle bu algoritma popüler tahmin modelleri olan ARIMA ve Holt’s Winter yöntemleri ile entegre edilerek elde edilen veri kümesi ile tahmin yapılmıştır ve gerçek verilerden oluşan test kümesi ile performansı ölçülmüştür. Daha sonra aynı tahmin modelleri tüm gözlem kümesi ile eğitilerek gelecek değerler tahmin edilmiş ve test veri kümesi ile performansı ölçülmüştür. Ayrıca zaman serisindeki değişim noktalarının tespit edilmesinin önemini göstermek amacıyla çalışmada ek bir yöntem olarak sabit süreli zaman pencereleri ile eğitim veri kümeleri oluşturulmuş ve bu kümelerle tahminler gerçekleştirilip performansları ölçülmüştür.
CUSUM algoritması kullanılarak gözlem kümesinin tahmin için en “doğru” bölümü ile eğitilen modellerin MSE hata değerleri diğer iki yöntemden elde edilen tahmin sonuçlarına göre daha küçük olduğu yani gerçeğe daha yakın sonuçlar elde edildiği görülmüştür.
Time series are data sets that contain consecutive observation values of a variable. These observations may change over time due to environmental or systematic effects. Therefore, while estimating with time series models, instead of training the model with the whole set of observations, the data can be divided into sections starting from the very end, and the most relevant periods from these sections will be used in the forecasting model. In this study, the CUSUM algorithm, which is a change point analysis method, is used to determine the length of the training dataset. This algorithm is integrated with ARIMA and Holt’s Winter methods, which are popular prediction models, and forecasts are generated and evaluated on the test data.For validation, the same prediction models are trained on the whole data set, and its performance is used as a benchmark to evaluate the proposed approach. Furthermore, to show the importance of determining the change points in the time series, training data sets were created with fixed-time time windows, and estimates were made with these sets, and their performances were measured.
It is observed that the models trained with the“correct” part of the time series have smaller MSE values as compared to the prediction results obtained from the other two methods, that is, more realistic results were obtained.