Introducción
Maybe you have heard about scatter diagrams, about simple linear regression or about confidence interval and correlation tests if you have not heard about these topics, we will present them below.
A scatter plot is also called a scatter plot. This can suggest types of correlations between the variables with a confidence interval determined knowing in advance that a confidence interval allows to evaluate the equivalence between two variables and calculate the probability of a result exceeding or Scope of a certain magnitude is of great importance to know about this topic since throughout life we will run into problems or circumstances where we will make use of them.
A scatter plot is also called a scatter plot. This can suggest types of correlations between the variables with a confidence interval determined knowing in advance that a confidence interval allows to evaluate the equivalence between two variables and calculate the probability of a result exceeding or Scope of a certain magnitude is of great importance to know about this topic since throughout life we will run into problems or circumstances where we will make use of them.
Diagrama de
dispersión
Un diagrama de dispersión o
gráfica de dispersión o gráfico de dispersión es un tipo de diagrama matemático
que utiliza las coordenadas cartesianas para mostrar los valores de dos
variables para un conjunto de datos
Se emplea cuando una o varias
variables está bajo el control del experimentador. Si existe un parámetro que
se incrementa o disminuye de forma sistemática por el experimentador, se le
denomina parámetro de control o variable independiente y habitualmente se
representa a lo largo del eje horizontal (eje de las abscisas). La variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje
de las ordenadas). Si no existe una variable dependiente, cualquier variable se
puede representar en cada eje y el diagrama de dispersión mostrará el grado de
correlación (no causalidad) entre las dos variables.
Un diagrama de dispersión
puede sugerir varios tipos de correlaciones entre las variables con un
intervalo de confianza determinado. La correlación puede ser positiva
(aumento), negativa (descenso), o nula (las variables no están correlacionadas).
Se puede dibujar una línea de ajuste (llamada también "línea de
tendencia") con el fin de estudiar la correlación entre las variables. Una
ecuación para la correlación entre las variables puede ser determinada por
procedimientos de ajuste. Para una correlación lineal, el procedimiento de
ajuste es conocido como regresión lineal y garantiza una solución correcta en
un tiempo finito.
Uno de los aspectos más
poderosos de un gráfico de dispersión, sin embargo, es su capacidad para
mostrar las relaciones no lineales entre las variables. Además, si los datos
son representados por un modelo de mezcla de relaciones simples, estas
relaciones son visualmente evidentes como patrones superpuestos.
¿Para qué se usa un
diagrama de dispersión?
Entre sus usos está descubrir
y mostrar las relaciones entre dos conjuntos asociados de datos y confirmar
relaciones anticipadas entre dos conjuntos asociados de datos.
El diagrama de dispersión
puede estudiar la relación entre:
Ø Dos factores o causas relacionadas con la calidad.
Ø Dos problemas de calidad.
Ø Un problema de calidad y su posible causa.
Procedimiento para
hacer un diagrama de dispersión
1. Recolectar datos pareados (x,y) a partir de dos conjuntos
asociados de datos cuya relación va a ser objeto de estudio. Es conveniente
contar con 30 pares de datos aproximadamente.
2. Rotular el eje x y el eje y.
3. Encontrar los valores mínimo y máximo, tanto para x como
para y y utilizar estos valores para elaborar la escala de los ejes horizontal
(x) y vertical (y). Ambos deben tener aproximadamente la misma longitud.
4. Plotear los datos pareados (x,y). Cuando haya dos pares de
datos que tengan los mismos valores, dibujar círculos concéntricos al punto
ploteado o plotear el segundo punto a una corta distancia.
5. Examinar la forma de la nube de puntos para descubrir los
tipos y las fuerzas de las relaciones.
Cuando hablamos de la relación
entre dos tipos de acciones nos referimos a una relación de causa y efecto, a
una relación entre una causa y otra, o a una relación entre una causa y dos o
más causas.
Un diagrama de dispersión
relaciona las tres condicionantes antes mencionadas.
Ejemplo:
Con estos datos, elaboraremos el siguiente diagrama de dispersión:
Ejemplo:
Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con diferentes porcentajes de la nueva materia prima y toma los siguientes datos:
Correlación
La correlación no es más que
cómo se relacionan ambas variables entre sí. En la tabla siguiente te muestro
algunos tipos de correlación:
Tipos de
correlación
|
|
Posible correlación negativa
|
Un aumento de x provocará una tendencia
a la disminución de y.
|
Correlación negativa
|
Un aumento de x causará una disminución
de y.
|
Correlación positiva
|
Un aumento de y depende de un aumento de
x.
|
Posible correlación positiva
|
Un aumento de x provocará una tendencia
a un aumento de y.
|
Correlación nula (sin correlación)
|
La gráfica no sigue ningún tipo de
tendencia. Los puntos se encuentran totalmente dispersos.
|
Regresión lineal
La regresión lineal o ajuste lineal es un modelo matemático usado
para aproximar la relación de dependencia entre una variable dependiente Y, las
variables independientes Xi, y un termino aleatorio Σ.
Este Modelo puede ser expresado como:
Yt=B0 X0+B1 X1+B2
X2+…+ Bp Xp
Donde:
Yt = Variable dependiente explicada o regresado
X0, X1,.., Xp= Variables
explicativas independientes o regresores
B0, B1,…, Bp = Parámetros,
miden la influencia que las variables explicativas tiene sobre el recreciendo.
Método estadístico para detectar relaciones entre dos
variables, x e y, se le domina variables independientes que se le caracteriza
por tener valores fijos y ordenados, y mediados sin error. La variable
dependiente Y, y sus valores son aleatorios distribuidos a través del eje de
variables dependientes, por encima de la recta X.Y es la variable que queremos
predecir. Podemos aplicar la función de regresión lineal cuando sabemos que
existe una correlación lineal entre las variables.
La representación es la siguiente: y=a+bx+c
Dónde:
a: Valor de la ordenada donde la línea de regresión se
intercepta con el eje y.
b: Coeficiente de regresión poblacional (pendiente de la
línea recta).
e: Es el error.
Se usa en múltiplos campos, por ejemplo, para predecir la
cantidad de venta de un producto.
El objetivo es obtener estimaciones B0 y B1 de B0 y B1
Para calcular la recta de regresión:
Y = B0 + B1
x
Que se ajuste mejor con los datos.
Ejemplo:
Ejemplo:
Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan,
respectivamente, 14, 20, 32, 42 y 44 kilos.
Hallar la ecuación de la recta de regresión de la edad
sobre el peso.
¿Cuál sería el peso aproximado de un niño de seis
años?
|
xi
|
yi
|
xi²
|
yi²
|
xi · yi
|
|
2
|
14
|
4
|
196
|
28
|
|
3
|
20
|
9
|
400
|
60
|
|
5
|
32
|
25
|
1 024
|
160
|
|
7
|
42
|
49
|
1 764
|
294
|
|
8
|
44
|
64
|
1 936
|
352
|
|
25
|
152
|
151
|
5 320
|
894
|
Intervalo
de confianza y pruebas de coeficiente
El coeficiente de correlación es una de las medidas
estadísticas más usadas dentro del trabajo aplicado.
Alguna de sus propiedades fueron estudiadas por Zheen y
Matis(1994), donde presentan y demuestran las que consideran la más destacadas:
1. |R| ≤ 1.
2. Si |R| =
1 entonces los pares (X1,Y1) (X2,Y2)…(Xn,Yn) yacen n una línea recta.
3. Recíprocamente,
si los (X1,Y1) ,(X2,Y2)…(Xn,Yn) yacen en una línea recta
Intervalos
de Confianza
Método 1: Basado en la transformación Arcotangente
Método 2: Intervalo de la razón de Verasimilitud
Método 3: Bootstrap
Método 4: Intervalo de Jeyaratnam
Método 5: Test generalizado para p.
Factores de los que
depende un intervalo de confianza:
Dependiendo de la cantidad de datos que se allan utilizados
para calcular el valor muestral, este se acercara mas o menos al verdadero parámetro poblacional.
Nivel de confianza:
Nos va informar en que porcentaje de casos nuestra
estimación acierta, los niveles habituales son el 95% y 99% .
Este se denomina como alfa y nos informa de la probabilidad
que existen .
Lo estimado en la muestra (media) varianza diferencia de
medios).
De esto va a depender el estadístico probable para el
calculo del intervalo
Jesus Armando Rosario Luna
José Emmanuel Quiroz Cortez
Brisa Shaian Dominguez Navarrete
Alejandro Celis Montalva
Ana Laura Millan Perez
Edgar Alberto Peña Alvarado
Mario Bravo Solache



