Medidas de la propagación de datos | Introducción a la estadística

resultados de aprendizaje

Reconocer, describir y calcular las medidas de la propagación de datos: varianza, desviación estándar y rango.

Una característica importante de cualquier conjunto de datos es la variación en los datos. En algunos conjuntos de datos, los valores de los datos se concentran muy cerca de la media; en otros conjuntos de datos, los valores de los datos se distribuyen más ampliamente a partir de la media. La medida más común de variación o propagación, es la desviación estándar., La desviación estándar es un número que mide cuán lejos están los valores de los datos de su media.

la desviación estándar proporciona una medida numérica de la cantidad total de variación en un conjunto de datos, y se puede utilizar para determinar si un valor de datos en particular está cerca o lejos de la media.

la desviación estándar proporciona una medida de la variación global en un conjunto de datos.

la desviación estándar es siempre positiva o cero. La desviación estándar es pequeña cuando todos los datos están concentrados cerca de la media, exhibiendo poca variación o dispersión., La desviación estándar es mayor cuando los valores de los datos están más dispersos de la media, exhibiendo más variación.

supongamos que estamos estudiando la cantidad de tiempo que los clientes esperan en la cola en la caja en el Supermercado A y el Supermercado B. El tiempo de espera promedio en ambos supermercados es de cinco minutos. En el supermercado A, la desviación estándar para el tiempo de espera es de dos minutos; en el Supermercado B, La desviación estándar para el tiempo de espera es de cuatro minutos.

debido a que el Supermercado B tiene una desviación estándar más alta, sabemos que hay más variación en los tiempos de espera en el Supermercado B., En general, los tiempos de espera en el Supermercado B están más dispersos del promedio; los tiempos de espera en el Supermercado A están más concentrados cerca del promedio.

la desviación estándar se puede utilizar para determinar si un valor de datos está cerca o lejos de la media.

supongamos que Rosa y Binh compran en el Supermercado A. Rosa espera en el mostrador de pago durante siete minutos y Binh espera un minuto. En el supermercado A, el tiempo medio de espera es de cinco minutos y la desviación estándar es de dos minutos., La desviación estándar se puede utilizar para determinar si un valor de datos está cerca o lejos de la media.

Rosa espera siete minutos:

siete es dos minutos más que el promedio de cinco; dos minutos es igual a una desviación estándar.
El tiempo de espera de Rosa de siete minutos es dos minutos más largo que el promedio de cinco minutos.
El tiempo de espera de Rosa de siete minutos es una desviación estándar por encima del promedio de cinco minutos.

Binh espera un minuto.,

Uno es cuatro minutos menos que el promedio de cinco; cuatro minutos es igual a dos desviaciones estándar.
El tiempo de espera de Binh de un minuto es cuatro minutos menos que el promedio de cinco minutos.
El Tiempo de espera de Binh de un minuto es dos desviaciones estándar por debajo del promedio de cinco minutos.

un valor de datos que es dos desviaciones estándar del promedio está justo en el límite de lo que muchos estadísticos considerarían estar lejos del promedio., Considerar que los datos están lejos de la media si están a más de dos desviaciones estándar de distancia es más una «regla empírica» aproximada que una regla rígida. En general, la forma de la distribución de los datos afecta cuánto de los datos está más lejos que dos desviaciones estándar. (Usted aprenderá más sobre esto en capítulos posteriores.)

la línea numérica puede ayudarle a entender la desviación estándar. Si pusiéramos cinco y siete en una recta numérica, siete es a la derecha de cinco. Decimos, entonces, que siete es
una desviación estándar a la derecha de cinco porque 5 + (1)(2) = 7.,

si uno fuera también parte del conjunto de datos, entonces uno es dos desviaciones estándar a la izquierda de cinco porque 5 + (-2)(2) = 1.

el valor de la ecuación = Media + (#ofSTDEVs)(desviación estándar) se puede expresar para una muestra y para una población.

la letra minúscula S representa la desviación estándar de la muestra y la letra griega σ (sigma, minúscula) representa la desviación estándar de la población.,

cálculo de la desviación estándar

El procedimiento para calcular la desviación estándar depende de si los números son toda la población o son datos de una muestra. Los cálculos son similares, pero no idénticos. Por lo tanto, el símbolo utilizado para representar la desviación estándar depende de si se calcula a partir de una población o una muestra. La letra minúscula S representa la desviación estándar de la muestra y la letra griega σ (sigma, minúscula) representa la desviación estándar de la población., Si la muestra tiene las mismas características que la población, entonces s debe ser una buena estimación de σ.

si los números provienen de un censo de toda la población y no de una muestra, cuando calculamos el promedio de las desviaciones al cuadrado para encontrar la varianza, dividimos por N, El número de ítems en la población. Si los datos son de una muestra en lugar de una población, cuando calculamos el promedio de las desviaciones al cuadrado, dividimos por n – 1, uno menos que el número de elementos en la muestra.,

en el siguiente video se presenta un ejemplo de cálculo de la varianza y la desviación estándar de un conjunto de datos.

Fórmulas para la Desviación Estándar de la Muestra

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

Por la desviación estándar de la muestra, el denominador es n – 1, que es el tamaño de la muestra MENOS 1.,

Fórmulas para la Desviación Estándar de Población

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

Por la desviación estándar de población, el denominador es N, el número de elementos en la población.

variabilidad de muestreo de una estadística

Cuánto varía la estadística de una muestra a otra se conoce como variabilidad de muestreo de una estadística. Normalmente se mide la variabilidad de muestreo de una estadística por su error estándar., El error estándar de la media es un ejemplo de error estándar. Es una desviación estándar especial y se conoce como la desviación estándar de la distribución muestral de la media. Cubrirá el error estándar de la media cuando aprenda sobre el teorema del límite Central (no ahora). La notación para el error estándar de la media es \displaystyle\frac{{\sigma}}{{\sqrt{n}}} donde σ es la desviación estándar de la población y n es el tamaño de la muestra.

Nota

en la práctica, utilice una calculadora o un software de computadora para calcular la desviación estándar., Si está utilizando una calculadora TI-83, 83+, 84+, debe seleccionar la desviación estándar apropiada σ_x o s_x de las estadísticas de resumen. Nos concentraremos en usar e interpretar la información que nos da la desviación estándar. Sin embargo, debe estudiar el siguiente ejemplo paso a paso para ayudarlo a comprender cómo la desviación estándar mide la variación de la media. (Las instrucciones de la Calculadora aparecen al final de este ejemplo.,)

explicación del cálculo de la desviación estándar que se muestra en la tabla

las desviaciones muestran la distribución de los datos sobre la media. El valor de datos 11.5 está más lejos de la media que el valor de datos 11 que se indica por las desviaciones 0.97 y 0.47. Una desviación positiva ocurre cuando el valor de los datos es mayor que la media, mientras que una desviación negativa ocurre cuando el valor de los datos es menor que la media. La desviación es -1.525 para el valor de datos nueve. Si sumamos las desviaciones, la suma es siempre cero. (Por ejemplo 1, Hay n = 20 desviaciones., Por lo tanto, no puede simplemente agregar las desviaciones para obtener la propagación de los datos. Al cuadrar las desviaciones, los haces números positivos, y la suma también será positiva. La varianza, entonces, es la desviación cuadrada media.

la varianza es una medida cuadrada y no tiene las mismas unidades que los datos. Tomar la raíz cuadrada resuelve el problema. La desviación estándar mide el spread en las mismas unidades que los datos.

observe que en lugar de dividir por n = 20, el cálculo dividido por n – 1 = 20 – 1 = 19 porque los datos son una muestra., Para la varianza de la muestra, dividimos por el tamaño de la muestra menos uno (n-1). ¿Por qué no dividir por n? La respuesta tiene que ver con la varianza poblacional. La varianza muestral es una estimación de la varianza poblacional. Basado en las matemáticas teóricas que se encuentran detrás de estos cálculos, dividir por (n-1) da una mejor estimación de la varianza poblacional.

Nota

su concentración debe estar en lo que la desviación estándar nos dice sobre los datos. La desviación estándar es un número que mide qué tan lejos se extienden los datos de la media., Deje que una calculadora o computadora haga la aritmética.

La desviación estándar, s o σ, es cero o mayor que cero. Cuando la desviación estándar es cero, no hay propagación; es decir, todos los valores de datos son iguales entre sí. La desviación estándar es pequeña cuando todos los datos están concentrados cerca de la media, y es mayor cuando los valores de los datos muestran más variación de la media. Cuando la desviación estándar es mucho mayor que cero, los valores de los datos están muy dispersos sobre la media; los valores atípicos pueden hacer que s o σ sean muy grandes.,

la desviación estándar, cuando se presenta por primera vez, puede parecer poco clara. Al graficar sus datos, puede obtener una mejor «sensación» de las desviaciones y la desviación estándar. Usted encontrará que en distribuciones simétricas, la desviación estándar puede ser muy útil, pero en distribuciones sesgadas, la desviación estándar puede no ser de mucha ayuda. La razón es que los dos lados de una distribución sesgada tienen diferenciales diferentes. En una distribución sesgada, es mejor mirar el primer cuartil, la mediana, el tercer cuartil, el valor más pequeño y el valor más grande., Debido a que los números pueden ser confusos, siempre grafique sus datos. Muestra tus datos en un histograma o un gráfico de caja.

desviación estándar de las tablas de frecuencia agrupadas

recuerde que para los datos agrupados no conocemos los valores de los datos individuales, por lo que no podemos describir el valor típico de los datos con precisión. En otras palabras, no podemos encontrar la media, mediana o modo exactos., Sin embargo, podemos determinar la mejor estimación de las medidas del centro encontrando la media de los datos agrupados con la fórmula:

media de la tabla de frecuencias =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

donde F = frecuencias de intervalo y M = puntos medios de intervalo.

así como no pudimos encontrar la media exacta, tampoco podemos encontrar la desviación estándar exacta. Recuerde que la desviación estándar describe numéricamente la desviación esperada que un valor de datos tiene de la media. En inglés simple, la desviación estándar nos permite comparar cómo se comparan los datos individuales «inusuales» con la media.,

comparación de valores de diferentes conjuntos de datos

la desviación estándar es útil cuando se comparan valores de datos que provienen de diferentes conjuntos de datos. Si los conjuntos de datos tienen diferentes medias y desviaciones estándar, comparar los valores de los datos directamente puede ser engañoso.

# ofSTDEVs a menudo se llama «Z-score»; podemos usar el símbolo z., En símbolos, las fórmulas ser:

Ejemplo	x=\overline{x}+zs	z = \frac{x – \overline{x}}{s}
Población	x = μ + zσ	z = \frac{x – µ}{σ}

Las siguientes listas de dar un par de hechos que dar un poco más de idea de lo que la desviación estándar nos dice acerca de la distribución de los datos.,

para cualquier conjunto de datos, no importa cuál sea la distribución de los datos:

para datos que tienen una distribución en forma de campana y simétrica:

aproximadamente el 68% de los datos está dentro de una desviación estándar de la media.
aproximadamente el 95% de los datos se encuentra dentro de dos desviaciones estándar de la media.
más del 99% de los datos se encuentran dentro de tres desviaciones estándar de la media.
Esto se conoce como la regla empírica.
Es importante tener en cuenta que esta regla solo se aplica cuando la forma de la distribución de los datos tiene forma de campana y es simétrica., Aprenderemos más sobre esto al estudiar la distribución de probabilidad» Normal «o» Gaussiana » en capítulos posteriores.

revisión de concepto

la desviación estándar puede ayudarlo a calcular la propagación de los datos. Hay diferentes ecuaciones para usar si están calculando la desviación estándar de una muestra o de una población.

la Fórmula de Revisión

\displaystyle{s}_{x}=\sqrt{{\frac{{\sum{fm}^{2}}}{{n}} – {x}^{2}}}

donde \displaystyle{s}_{x} = desviación estándar de la muestra, \displaystyle\overline{x} = media de la muestra

resultados de aprendizaje

la desviación estándar proporciona una medida de la variación global en un conjunto de datos.

la desviación estándar se puede utilizar para determinar si un valor de datos está cerca o lejos de la media.

cálculo de la desviación estándar

Fórmulas para la Desviación Estándar de la Muestra

Fórmulas para la Desviación Estándar de Población

variabilidad de muestreo de una estadística

Nota

explicación del cálculo de la desviación estándar que se muestra en la tabla

Nota

desviación estándar de las tablas de frecuencia agrupadas

comparación de valores de diferentes conjuntos de datos

revisión de concepto

la Fórmula de Revisión

Deja una respuesta Cancelar la respuesta