PROYECTO PARA 1º BACHILLERATO
CONCEPTOS
COVARIANZA
Ya sabemos que la desviación típica es un indicador de de dispersión de una variable (recuerda que la desviación típica es la raíz cuadrada de la varianza). ¿Qué pasa cuando tienes más de una variable? Existe alguna forma de saber cómo se relaciona una con la otra? ¡Exacto! La pregunta es. ¿Cómo mides la dispersión entre dos variables? Es decir, ¿cómo sé cuándo dispersa está una variable respecto a la otra? La respuesta tiene un nombre, y este nombre es la Covarianza. En una frase. “La Covarianza es una especie de varianza entre dos variables”. ¿Qué indica la Covarianza?
1.-La covarianza positiva => cuando una variable crece la otra variable también. Tienen una relación directa.
2.-La covarianza negativa => cuando una variable crece la otra variable decrece. Tienen una relación Inversa.
No hagas mucho caso del valor de la Covarianza. Se ve influido por las unidades. El valor en sí no te dice nada pero si el signo. Pero, “¿qué es la covarianza y cómo se calcula?” Para contestarte requiere un poco de lenguaje difícil y una ecuación.
“La Covarianza es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.”
De alguna forma está calculando las distancias a la media de los datos de la primera variable y de la segunda variable. Y hace una especie de ponderación, de media entre estas distancias. En lenguaje matemático sería algo así:
VIDEOS
NUBE DE PUNTOS
NUBE DE PUNTOS CON EXCEL
La interpretación de la covarianza es cualitativa. De dirección de dispersión. De signo. No cuantitativa. El número no te dice nada. El valor, el número, no tiene interpretación. Depende de las unidades y esto no interesa. Si buscas un indicador que no dependa de las unidades, es el famoso R^2 o coeficiente de Pearson o de correlación. Resumiendo:
1.-Si dos variables son independientes su covarianza es cero (el resultado recíproco no es necesariamente cierto).
2.-La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos. En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos. Si la covarianza es cero no hay una covariación clara en ninguno de los dos sentidos. Sin embargo el hecho de que la covarianza dependa de las medidas de las variables no permite establecer comparaciones entre unos casos y otros.
COEFICIENTE CORRELACIÓN
El coeficiente de correlación sirve para medir la correlación entre 2 variables. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlación, como puede ser la covarianza, es que los resultados del coeficiente de correlación están acotados entre -1 y +1. Esta característica nos permite comparar diferentes correlaciones de una manera más estandarizada.Los valores cercanos a cero indican que no hay asociación entre las variables. Valores cercanos a uno indican una asociación fuerte, mientras que los valores cercanos a menos uno indican una asociación fuerte pero inversa.
Por ejemplo, si el coeficiente de correlación entre dos activos financieros es mayor que 0,70, podemos decir que están muy correlacionados positivamente. Por el contrario, si el valor de este coeficiente está entre -0,20 y +0,20, la correlación será baja. Por último, si el coeficiente de correlación es menor que -0,70 existirá una gran correlación, pero negativa.
COVARIANZA Y CORRELACIÓN
COVARIANZA Y CORRELACIÓN CON EXCEL
RECTAS DE REGRESION
La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es una medida de regresión que pretende cuantificar el grado de variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos variables, es decir, si se representan en un diagrama de dispersión los valores que toman dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos representados se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de intensidad y el sentido de la relación entre dos variables.
RECTAS DE REGRESION EN EXCEL
Siendo:
Cov (x;y): la covarianza entre el valor “x” e “y”.
σ(x): desviación típica de “x”.
σ(y): desviación típica de “y”.
ρ = -1 Correlación perfecta negativa
ρ = 0 No existe correlación
ρ = +1 Correlación perfecta positiva
Hablamos de correlación positiva si siempre que el valor “x” sube, el valor “y” sube, y además con la misma intensidad (+1).
En el caso opuesto, si siempre que el valor “x” sube, y el valor “y” baja, y además con la misma intensidad, entonces estamos hablando de correlación negativa (-1).
Es importante saber que esto no quiere decir que lo hagan en la misma proporción (salvo que tengan la misma desviación típica).
Correlación perfecta positiva:
EJERCICIO COMPLETO DE TODO LO APRENDIDO
<img class="wp-image-11972 size-full aligncenter" src="http://economipedia.com/wp-content/uploads/2015/12/no-hay-correlación.png" alt="no hay correlación" width="582" height="232" srcset="http://economipedia.com/wp-content/uploads/2015/12/no-hay-correlación.png 582w, http://economipedia.com/wp-content/uploads/2015/12/no-hay-correlación-300x120.png 300w" sizes="(max-width: 582px) 100vw, 582px"/>
Correlación perfecta negativa:
RECTAS REGRESIÓN
En las distribuciones bidimensionales que siguen una dependencia estadística se utilizan gráficas de puntos para representar sus tendencias. No obstante, dichas tendencias pueden apuntar a una ley de tipo funcional, que pueda explicar el comportamiento global de la distribución. Para hallar esta ley se utilizan métodos de regresión y correlación entre las variables.
Regresión y líneas de regresión
Con frecuencia, las variables que constituyen una distribución bidimensional muestran un cierto grado de dependencia entre ellas. Un ejemplo típico de esta relación aparece en las tablas de peso y altura de los grupos de población: aunque no existe una ley causal que relacione ambas variables, en términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura, suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados en algunas zonas.
La concentración de puntos en algunas regiones de la nube refleja la existencia de una dependencia estadística, y la posibilidad de definir una ecuación de regresión.
En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica, hiperbólica, exponencial, etcétera.
Regresión lineal
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a esta forma geométrica por medio de un método general conocido como método de los mínimos cuadrados. La recta de ajuste tendrá por ecuación y = ax + b, donde los coeficientes a y b se calculan teniendo en cuenta que:
La recta debe pasar por el punto ().
La separación de los puntos de la gráfica de dispersión con respecto a la recta de regresión debe ser mínima.
Estas dos condiciones conducen a una recta de ajuste expresada por la ecuación:
donde
es la media aritmética de la primera variable, la media aritmética de la segunda variable, sx la desviación típica de la primera variable y sxy la covarianza.