lunes, 6 de noviembre de 2023

Investigación estadística: análisis descriptivo y su relación con el análisis exploratorio de datos

Edwin Rolando García Caal

El análisis exploratorio de datos tiene como objetivo entender de forma preliminar las características de las variables que se estudian en una investigación estadística. El proceso implica evaluar la calidad de los datos y entender lo que explican. Evaluar la calidad de los datos refiere el cumplimiento de condiciones señaladas como premisas estadísticas y la identificación de posibles errores, tales como ausencia de datos, datos incorrectos, codificación errónea, presencia de datos atípicos y relaciones no esperadas entre los datos (redundancia). Las técnicas que cumplen este objetivo son el examen numérico y de representación gráfica, resúmenes de los aspectos significativos, indagar relaciones entre las variables, medición del grado de relación, descubrir valores predeterminados, establecer una estructura compacta de la data, elaboración de listas, estructuras, subestructuras y anidación.

Entre los aspectos significativos a investigar están el número total de observaciones, el conjunto total de los datos, el número total de variables, el rango temporal que ofrecen. La representación gráfica puede hacerse utilizando histogramas, gráficos de líneas, gráficos de barras, gráficos de sectores, gráficos combinados, entre otros. El objetivo de graficar es poder establecer el comportamiento de la distribución de los datos. Al graficar los datos es posible establecer sesgos, tendencias, aspectos de normalidad y la distancia de los valores a los extremos 0-100.

Las herramientas que sirven a este propósito pueden ser el lenguaje de programación R, eviews, estata, statistic, spss, epidat, Infostat, entre otros.

Los pasos recomendados para hacer el análisis exploratorio son:

· El análisis de recogida, que incluye el ajuste de los tipos de variables, la detección y el tratamiento de datos ausentes, la identificación de datos atípicos y la medición de los grados de correlación entre las variables.

· El ajuste de los tipos de variables, que surge al verificar que cada variable esté almacenada con el tipo de valor que le corresponde, por ejemplo, los valores cualitativos en variables cualitativas y los valores numéricos representados en números. Esto significa diferenciar adecuadamente números, caracteres, categorías, variables lógicas y variables de intervalo temporal.

· La detección de datos ausentes, que incluye datos perdidos, celdas vacías y clasificaciones NA. Estos en la mayoría de casos son errores de la recogida de datos y otros en la transcripción. Si los datos ausentes tienen un porcentaje superior al 50% se catalogan como ausencias significativas y por lo tanto, a partir de esta anomalía es necesario repensar la utilización de los datos.

· El tratamiento de datos ausentes, que incluye rellenar los valores ausentes con la media, la mediana o el valor más frecuente de cada variable. Completar los valores que faltan con el valor que esté directamente antes o después de la fila o columna del registro. Completar todos los datos faltantes con cero, si se trata de valores numéricos, aunque este proceso es poco aconsejable por el impacto que tiene sobre los parámetros estadísticos. Eliminar toda la información de filas con valores ausentes, siempre que dicha eliminación no afecte significativamente la cantidad total de los datos y finalmente, de forma abrupta analizar el contexto para rehacer la recogida de datos. El respecto es importante considerar si los datos ausentes pueden modificar los resultados del futuro análisis o introducir algún tipo de sesgo.

· La identificación de datos atípicos, que incluye considerar los valores anómalos a partir de rangos o magnitudes preestablecidas. Estos valores pueden afectar los resultados, por lo tanto, lo recomendable es reducir su influencia en los análisis. Hay que tomar en cuenta que eliminar los datos atípicos no es la solución, a menos que efectivamente se identifique que fue un error. Sustituirlos por la media o la mediana tampoco es recomendable. Esto puede afectar tanto la distribución de las variables como los resultados futuros, introducir sesgos o bien afectar a las varianzas o a las variables de interés. Para verificar estos extremos es necesario realizar los análisis con y sin valores atípicos. Si el efecto es mínimo entonces se justifica su eliminación. Si es sustancial entonces no deberían ser ignorados sin justificación. Cada decisión que se tome debe ser documentada para que los analistas comprendan las posibles transformaciones efectuadas. Los gráficos de cajas y bigotes aportan una representación visual de los datos atípicos.

· Medir la correlación de variables, que incluye determinar la relación lineal, la fuerza y la dirección de la relación entre variables. La correlación positiva o inversa no necesariamente puede identificar una relación causa-efecto, ya que puede tratarse de una correlación ficticia entre variables independientes. Una correlación fuerte puede inducir a establecer una redundancia de información, lo que se soluciona eliminando una de las variables. La técnica que permite esta acción es el análisis de componentes principales.

El análisis exploratorio debe ser una acción previa al análisis descriptivo, ya que este segundo, implica establecer indicadores a través de medias, razones, promedios y proporciones que permitan dar una explicación a los hechos y en consecuencia permitir la búsqueda de soluciones. El análisis descriptivo permite describir las características de los datos y sus tendencias y a partir de esta información hacer extrapolaciones o conclusiones que es posible aplicar al resto de individuos que no se consideraron en la muestra. Dar una explicación de un fenómeno observado obliga a disponer de una herramienta rigurosa que permita garantizar la calidad de las conclusiones y eliminar en gran medida la subjetividad del observador. El análisis estadístico incluye el cálculo de las medidas de tendencia central (media aritmética, mediana, moda y media geométrica), las medidas de dispersión (varianza, desviación típica, coeficiente de variación, recorrido, recorrido intercuartílico, cuantiles, coeficiente de asimetría, curtosis, correlación).