Open Access
January 2018 Influence of Missing Value Imputations on the Performance of Canonical Correspondence Analysis: Ecological Applications
Romain Lucas GLELE KAKAÏ, Matthews LAZARO, Micheline GBEHA
Afr. J. Appl. Stat. 5(1): 323-336 (January 2018). DOI: 10.16929/ajas/323.218

Abstract

The main objective of this study was to assess the influence of four imputation methods of missing values (mean, median, random forest and zero) on the performance of canonical correspondence analysis (CCA). Firstly, complete multivariate normal environmental data sets were simulated by taking into account sample size, number of variables, proportion of noise and correlation between variables. Thereafter, missingness in the complete data sets was artificially introduced at 0.1, 0.2 and 0.5 under three missing mechanisms: MCAR, MAR and NMAR. For each combination of factors, CCA was applied and constrained inertia was assessed between the complete data set and imputed data set. Results obtained showed that mean imputation recorded the best performance when data was MCAR and MAR. However, under NMAR, median imputation was the best preferred method. The study showed that beyond a missing value proportion of 30% the performance of imputation methods significantly reduced.

L’objectif principal de cette étude est d’évaluer l’influence de quatre méthodes d’imputation de valeurs manquantes (imputation par moyenne, médiane, forêt aléatoire et zero) sur la performance de l’analyse des correspon-dances canoniques (ACC). Tout d’abord, des données compl`etes de distribution Nor-male multivariée ont été générées en prenant en compte la taille des échantillons, le nombre de variables, la proportion de bruit et la correlation entre les vari-ables. Ensuite, des valeurs manquantes ont été artificiellement introduites dans les données environnementales (10, 30 et 50%) suivant trois m´ecanismes: MCAR, MAR et NMAR. Pour chaque combinaison des facteurs, l’ACC a été appliquée et l’inertie sous contrainte des données environnementales complètes et imputées a été calculée. Les résultats obtenus montrent que l’imputation par moyenne pr´esentait la meilleure performance dans le cas de MCAR et MAR. Toutefois, sous un NMAR, l’imputation par médiane était la meilleure. L’étude a montré qu’à partir d’une proportion de valeurs manquantes de 30%, la performance des méthodes d’imputation décroit significativement.

Citation

Download Citation

Romain Lucas GLELE KAKAÏ. Matthews LAZARO. Micheline GBEHA. "Influence of Missing Value Imputations on the Performance of Canonical Correspondence Analysis: Ecological Applications." Afr. J. Appl. Stat. 5 (1) 323 - 336, January 2018. https://doi.org/10.16929/ajas/323.218

Information

Published: January 2018
First available in Project Euclid: 16 May 2019

Digital Object Identifier: 10.16929/ajas/323.218

Subjects:
Primary: 62-07 , 62P12

Keywords: accuracy criteria , complete data , imputation methods , missingness , simulation

Rights: Copyright © 2018 The Statistics and Probability African Society

Vol.5 • No. 1 • January 2018
Back to Top