sábado, 18 de mayo de 2019

Regresión Lineal


Introducción
Maybe you have heard about scatter diagrams, about simple linear regression or about confidence interval and correlation tests if you have not heard about these topics, we will present them below.

A scatter plot is also called a scatter plot. This can suggest types of correlations between the variables with a confidence interval determined knowing in advance that a confidence interval allows to evaluate the equivalence between two variables and calculate the probability of a result exceeding or Scope of a certain magnitude is of great importance to know about this topic since throughout life we will run into problems or circumstances where we will make use of them.

Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos
Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La variable medida o dependiente usualmente se representa a lo largo del eje vertical (eje de las ordenadas). Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito.

Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos.



 








¿Para qué se usa un diagrama de dispersión?
Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados de datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.

El diagrama de dispersión puede estudiar la relación entre:
Ø  Dos factores o causas relacionadas con la calidad.
Ø  Dos problemas de calidad.
Ø  Un problema de calidad y su posible causa.

Procedimiento para hacer un diagrama de dispersión

1.    Recolectar datos pareados (x,y) a partir de dos conjuntos asociados de datos cuya relación va a ser objeto de estudio. Es conveniente contar con 30 pares de datos aproximadamente.
2.    Rotular el eje x y el eje y.
3.    Encontrar los valores mínimo y máximo, tanto para x como para y y utilizar estos valores para elaborar la escala de los ejes horizontal (x) y vertical (y). Ambos deben tener aproximadamente la misma longitud.
4.    Plotear los datos pareados (x,y). Cuando haya dos pares de datos que tengan los mismos valores, dibujar círculos concéntricos al punto ploteado o plotear el segundo punto a una corta distancia.
5.    Examinar la forma de la nube de puntos para descubrir los tipos y las fuerzas de las relaciones.
Cuando hablamos de la relación entre dos tipos de acciones nos referimos a una relación de causa y efecto, a una relación entre una causa y otra, o a una relación entre una causa y dos o más causas.
Un diagrama de dispersión relaciona las tres condicionantes antes mencionadas.

Ejemplo:

Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con diferentes porcentajes de la nueva materia prima y toma los siguientes datos:



Con estos datos, elaboraremos el siguiente diagrama de dispersión:




Correlación
La correlación no es más que cómo se relacionan ambas variables entre sí. En la tabla siguiente te muestro algunos tipos de correlación:

Tipos de correlación
Posible correlación negativa
Un aumento de x provocará una tendencia a la disminución de y.
Correlación negativa
Un aumento de x causará una disminución de y.
Correlación positiva
Un aumento de y depende de un aumento de x.
Posible correlación positiva
Un aumento de x provocará una tendencia a un aumento de y.
Correlación nula (sin correlación)
La gráfica no sigue ningún tipo de tendencia. Los puntos se encuentran totalmente dispersos.

Regresión lineal
La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi, y un termino aleatorio Σ.
Este Modelo puede ser expresado como:

Yt=B0 X0+B1 X1+B2 X2+…+ Bp Xp

Donde:

Yt = Variable dependiente explicada o regresado
X0, X1,.., Xp= Variables explicativas independientes o regresores
B0, B1,…, Bp = Parámetros, miden la influencia que las variables explicativas tiene sobre el recreciendo.
Método estadístico para detectar relaciones entre dos variables, x e y, se le domina variables independientes que se le caracteriza por tener valores fijos y ordenados, y mediados sin error. La variable dependiente Y, y sus valores son aleatorios distribuidos a través del eje de variables dependientes, por encima de la recta X.Y es la variable que queremos predecir. Podemos aplicar la función de regresión lineal cuando sabemos que existe una correlación lineal entre las variables.
La representación es la siguiente: y=a+bx+c
Dónde:
a: Valor de la ordenada donde la línea de regresión se intercepta con el eje y.
b: Coeficiente de regresión poblacional (pendiente de la línea recta).
e: Es el error.
Se usa en múltiplos campos, por ejemplo, para predecir la cantidad de venta de un producto.
El objetivo es obtener estimaciones  B0 y B1 de B0 y B1
Para calcular la recta de regresión:
Y = B0 + B1 x
Que se ajuste mejor con los datos.

Ejemplo:

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
 Hallar la ecuación de la recta de regresión de la edad sobre el peso.

 ¿Cuál sería el peso aproximado de un niño de seis años?


xi
yi
xi²
y
xi · yi
2
14
4
196
28
3
20
9
400
60
5
32
25
1 024
160
7
42
49
1 764
294
8
44
64
1 936
352
25
152
151
5 320
894













Intervalo de confianza y pruebas de coeficiente

El coeficiente de correlación es una de las medidas estadísticas más usadas dentro del trabajo aplicado.
Alguna de sus propiedades fueron estudiadas por Zheen y Matis(1994), donde presentan y demuestran las que consideran la más destacadas:
1.            |R| ≤ 1.
2.            Si |R| = 1 entonces los pares (X1,Y1) (X2,Y2)…(Xn,Yn) yacen n una línea recta.
3.            Recíprocamente, si los (X1,Y1) ,(X2,Y2)…(Xn,Yn) yacen en una línea recta

Intervalos de Confianza

Método 1: Basado en la transformación Arcotangente
Método 2: Intervalo de la razón de Verasimilitud
Método 3: Bootstrap
Método 4: Intervalo de Jeyaratnam
Método 5: Test generalizado para p.

Factores  de los que depende un intervalo de confianza:

*      Tamaño de la muestra seleccionada:
Dependiendo de la cantidad de datos que se allan utilizados para calcular el valor muestral, este se acercara mas o menos al  verdadero parámetro poblacional.

Nivel de confianza:
Nos va informar en que porcentaje de casos nuestra estimación acierta, los niveles habituales son el 95% y 99% .

*      Margen de error:
Este se denomina como alfa y nos informa de la probabilidad que existen .
Lo estimado en la muestra (media) varianza diferencia de medios).
De esto va a depender el estadístico probable para el calculo del intervalo


                                                                        

Este trabajo fue realizado por:

Jesus Armando Rosario Luna
José Emmanuel Quiroz Cortez
Brisa Shaian Dominguez Navarrete
Alejandro Celis Montalva
Ana Laura Millan Perez
Edgar Alberto Peña Alvarado
Mario Bravo Solache