-->

domingo, 11 de junio de 2017

ANOVA de un Factor


1. Introducción

2. Anova de un Factor

      2.1 Requisitos

      2.2 Cómo pedirlo

      2.3 Interpretación del output

               - Descriptivos
               - Prueba de homogeneidad de varianzas
               - La F de Snedecor
               - Estadísticos
               - Pruebas Post Hoc



Introducción


El análisis de la varianza comparte lógica con la diferencia de medias, pero es aplicado a situaciones en las que existen más de dos grupos en la variable independiente. Por ejemplo, para saber si existe diferencia salarial significativa entre hombres y mujeres utilizaríamos la diferencia de medias, puesto que únicamente tenemos dos categorías en la variable sexo. Sin embargo, si lo que pretendemos es estudiar dicha diferencia salarial entre la población según rangos de edad, por ejemplo con cuatro rangos de edad, utilizaremos el análisis de ANOVA.

La variable categórica (nominal u ordinal) será la variable independiente que también recibe el nombre de factor. Es la variable que establece los grupos o muestras, en nuestro caso los grupos de edad. Cada grupo de edad será un nivel. La variable cuantitativa será la variable dependiente. La hipótesis del análisis es que las medias poblaciones de la variable dependiente son iguales para todos los grupos de la o las variables independientes, y que por tanto, la variable dependiente no está relacionada o es independiente de nuestro factor. Para llevar a cabo el análisis se utiliza el estadístico F, que sustituye la t de student utilizada en el análisis de comparación de medias
La primera distinción existente en el análisis de la varianza es el número de variables independientes o factores que intervienen en el análisis. Veamos a continuación el análisis de la varianza cuando solo tenemos un factor con varias categorías o grupos.

Para poder comprender este tipo de análisis vamos echar mano de un ejemplo que nos permita ir atacando a la vez tanto la teoría como la práctica. Solo tener un factor implica que solo tenemos en consideración una variable independiente (con sus niveles) enfrentada a una variable dependiente.

En el siguiente ejemplo vamos a estudiar si la edad (Recodificada en grupos o niveles) tiene influencia sobre la manera en que la gente acepta la homosexualidad en España. Como en otras ocasiones los datos proceden de la encuesta mundial de valores. Nuestra variable independiente será la edad recodificada en grupos, mientras que la consideración de la homosexualidad será nuestra variable dependiente, que se constituye en una escala de 1 a 10.


Requisitos


Antes de llevar a cabo el análisis debemos asegurarnos de que nuestras variables cumplen varios requisitos:

Supuestos del estadístico F:

1      -  Las submuestras de cada nivel de los factores son independientes entre sí.
2     -  Las distribuciones son de igual varianza – homoscedasticidad
3     - Las distribuciones son normales.

La hipótesis de homogeneidad de varianzas es proporcionada por el mismo análisis de la ANOVA a través del estadístico de Levene, por lo que lo tocaremos más adelante. Previo a este contraste podemos contrastar la hipótesis de normalidad a través del menú de SPSS ‘Explorar’, que nos ofrece además de gráficos, los contrastes de normalidad de Kolmogorov y Shapiro-Wilk. La hipótesis inicial es que las distribuciones de nuestras variables son normales. Como se puede observar en la tabla, obtenemos un nivel de significación inferior a 0,05, por lo que rechazamos la hipótesis nula de normalidad y concluimos que nuestras distribuciones no son normales.

El primer supuesto del análisis de ANOVA no ha sido cumplido. Sin embargo, el estadístico F puede arrojar resultados satisfactorios incluso incumpliendo este supuesto, siempre y cuando tengamos muestras grandes y se mantenga cierta simetría. Como nuestra muestra es lo suficientemente grande podemos llevar a cabo el análisis incluso incumpliendo este primer supuesto. Si nuestra muestra fuera insuficiente y el contraste de normalidad fuera negativo no podríamos echar mano de este análisis. 
















Como pedirlo en SPSS:


En SPPS lo pedimos desde la ruta “analizar/comparar medias/ANOVA de un factor”. En la lista de variables dependientes metemos las variables métricas, en nuestro caso, la consideración sobre la homosexualidad. En el factor metemos la edad.  



En la pestaña de opciones pedimos los descriptivos y la prueba de homogeneidad de varianzas. Más adelante comprobaremos el motivo por el cuál pedimos estos y no otros estadísticos.


Los descriptivos


La tabla de descriptivos nos ofrece una primera visión de las medias de cada grupo o nivel de edad. También nos ofrece información de la desviación típica, del error típico y del intervalo de confianza. Rápidamente se intuye la existencia de relación entre nuestras variables. En las edades más jóvenes las puntuaciones relacionadas con la variable homosexualidad son más altas que entre las personas de edad avanzada. Las medias de los grupos oscilan entre los 4,68 del grupo de edad de entre 65 y más años y los 7,67 de las personas de entre 25 y 34 años. Es evidente que en nuestra muestra estos subgrupos muestrales tienen medias distintas, pero ¿es aplicable esto a la población general? En otras palabras, ¿es la diferencia de medias observada significativa? El análisis de ANOVA a partir del estadístco F responderá a esta pregunta y otros estadísticos como el de Bonferroni añadirán información, permitiendo discernir entre qué grupos existen diferencias significativas y entre cuáles no.



Levene – Prueba de homogeneidad:


El estadístico de Levene nos indica si las varianzas de los grupos son similares o bien tienen una estructura diferente. La hipótesis nula es que nuestros grupos de la variable independiente tienen varianzas iguales. Como en nuestra tabla el nivel de significación es mayor que 0,05 no podemos rechazar la hipótesis nula de igualdad de varianzas. Por tanto concluimos que nuestros grupos de la variable independiente no tienen varianzas distintas respecto a la variable dependiente, por lo que estaremos cumpliendo uno de los supuestos de este análisis.




ANOVA: F de snedecor

El estadístico F se calcula como el cociente entre la varianza inter-grupos e intragrupos. Como en nuestro caso no hemos rechazado la hipótesis de igualdad de varianzas podemos hacer uso del estadístico. El hecho de obtener una F significativa advierte de que nuestros datos tienen medias distintas, ya que la hipótesis inicial supone la igualdad de medias para todos los grupos de edad. Observando el nivel de significación menor de 0,05 rechazamos dicha igualdad. Puedes ver cómo se calcula el estadístico F pinchando sobre el enlace calculo F d Snedecor.


Pruebas post Hoc

A través de la F y su nivel de significación hemos llegado a la conclusión de que al menos uno de nuestros grupos de edad tiene una media distinta al resto de grupos en la variable a medir. Esto de por sí no nos aporta demasiada información. Para profundizar algo más debemos echar mano de las pruebas post-hoc, que aportan información sobre los grupos específicos que mantienen diferencia de medias poblacional.

Dependiendo de los resultados de nuestra prueba de igualdad de varianzas a través del estadístico de Levene deberemos echar mano de una prueba distinta. En el caso de igualdad de varianzas echaríamos mano de la prueba de Bonferroni, mientras que en caso de no igualdad lo más común es echar mano de Durwin Watson. En nuestro ejemplo, hemos concluido que los grupos no tienen varianzas diferentes, por lo que usamos la prueba de Bonferroni.

A la izquierda vemos cada grupo de edad y dentro de cada uno se repiten los distintos grupos de edad. Cuando la significación es menor que 0,05 rechazamos la hipótesis nula de igualdad de medias y concluimos que las medias son distintas en la población. En la prueba vemos que los de 15 a 24 tienen medias distintas que los de 55 a 64 y entre los mayores de 65. Además sabemos también observando la columna de diferencia de medias y los límites que la mayor diferencia se encuentra entre los más jóvenes y los más mayores.




No hay comentarios:

Publicar un comentario