IMPUTASI MISSING DATA MENGGUNAKAN METODE K-NEAREST NEIGHBOUR DENGAN OPTIMASI ALGORITMA GENETIKA

Abidatul Izzah Izzah, nur hayatin

Abstract


Salah satu permasalahan yang ada pada dataset adalah ketiadaan nilai pada data untuk atribut tertentu atau yang sering disebut dengan missing data. Metode yang paling mudah dan populer adalah K-Nearest Neighbour (KNN). Namun, metode ini memiliki beberapa kelemahan salah satunya adalah pemilihan nilai k yang tidak tepat dapat menurunkan kinerja klasifikasi. Penelitian ini bertujuan menangani missing data dengan teknik imputasi menggunakan gabungan algoritma KNN dan Algoritma Genetika (KNN-GA). GA digunakan untuk mengoptimasi nilai k pada KNN sehingga dapat menghasilkan nilai estimasi yang baik dengan MSE sekecil mungkin. Pengujian performansi dilakukan dengan membandingkan nilai MSE dan akurasi hasil klasifikasi antara metode KNN-GA dengan metode imputasi yang lain, yaitu : KNN, Mean, dan Median. Hasil yang diperoleh menunjukkan bahwa secara rata-rata metode imputasi KNN-GA memiliki nilai MSE terendah dan hasil akurasi klasifikasi yang inggi.

 

Kata kunci : Algoritma Genetika, Imputasi, KNN, KNN-GA


References


Acuna, dkk., 2004, The treatment of missing values and its effect on classifier accuracy, Classification, Clustering, and Data Mining Ahallications. Springer Berlin Heidelberg, hal. 639-647.

Farhangfar, K.,dkk, 2008, Impact of imputation of missing values on classification error for discrete data, Pattern Recognition, Vol.41, hal. 3692-3705.

Jurasovic, K., 2010, Genetic algorithm for optimizing service distributions, Neurocomputing, Vol. 73, hal 661–668.

Laencina, G.,dkk, 2009, K nearest neighbours with mutual information for simultaneous classification and missing data imputation, Neurocomputing, Vol.72, hal. 1483–1493.

Langkamp, dkk., 2010, Techniques for handling missing data in secondary analyses of large surveys, Academic Pediatric Association, Vol. 10. No. 3, hal 205-210

Little, R. J. dan Rubin, D.B. 2002. Statistical analysis with missing data. Second Edition. John Wiley and Sons, New York.

Malarvizhi, T. 2012, K-nn classifier performs better than k-means clustering in missing value imputation, IOSR Journal of Computer Engineering, Vol.6, No. 5, hal 12-15.

Mawarsari, U., 2012, Imputasi missing data dengan k-nearest neighbour dan algoritma genetika, Tesis Pascasarjana Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA), Institut Teknologi Sepuluh Nopember, Surabaya.

Pigott D.T., 2011. A review of methods for missing data. Educational Research and Evaluation, Vol. 7, No.4, hal. 353-383.

Zhang, dkk., 2011, Missing data imputation by utilizing information within incomplete instances, The Journal of Systems and Software, Vol.84, No. 3, hal. 452–459.




DOI: http://dx.doi.org/10.30742/melek-it.v2i2.46

Refbacks

  • There are currently no refbacks.


Copyright (c) 2015 Melek IT JOURNAL

Number of Visitor :
Statistics of Visitor



indexing by :          


MELEK IT Information Technology Journal is licensed under Creative Commons Attribution-ShareAlike 4.0 International License