Misure della diffusione dei dati / Introduzione alla statistica

Risultati di apprendimento

Riconoscere, descrivere e calcolare le misure della diffusione dei dati: varianza, deviazione standard e intervallo.

Una caratteristica importante di qualsiasi insieme di dati è la variazione dei dati. In alcuni set di dati, i valori dei dati sono concentrati vicino alla media; in altri set di dati, i valori dei dati sono più ampiamente distribuiti dalla media. La misura più comune di variazione, o diffusione, è la deviazione standard., La deviazione standard è un numero che misura quanto i valori dei dati sono lontani dalla loro media.

La deviazione standard fornisce una misura numerica della quantità complessiva di variazione in un set di dati e può essere utilizzata per determinare se un particolare valore di dati è vicino o lontano dalla media.

La deviazione standard fornisce una misura della variazione complessiva in un set di dati.

La deviazione standard è sempre positiva o zero. La deviazione standard è piccola quando i dati sono tutti concentrati vicino alla media, mostrando poca variazione o diffusione., La deviazione standard è maggiore quando i valori dei dati sono più distribuiti dalla media, mostrando più variazioni.

Supponiamo che stiamo studiando la quantità di tempo in cui i clienti aspettano in fila alla cassa al supermercato A e al supermercato B. il tempo medio di attesa in entrambi i supermercati è di cinque minuti. Al supermercato A, la deviazione standard per il tempo di attesa è di due minuti; al supermercato B la deviazione standard per il tempo di attesa è di quattro minuti.

Poiché il supermercato B ha una deviazione standard più elevata, sappiamo che ci sono più variazioni nei tempi di attesa al supermercato B., Nel complesso, i tempi di attesa al supermercato B sono più distribuiti dalla media; i tempi di attesa al supermercato A sono più concentrati vicino alla media.

La deviazione standard può essere utilizzata per determinare se un valore di dati è vicino o lontano dalla media.

Supponiamo che Rosa e Binh acquistino entrambi al supermercato A. Rosa aspetta alla cassa per sette minuti e Binh aspetta un minuto. Al supermercato A, il tempo di attesa medio è di cinque minuti e la deviazione standard è di due minuti., La deviazione standard può essere utilizzata per determinare se un valore di dati è vicino o lontano dalla media.

Rosa aspetta sette minuti:

Sette è due minuti più lungo della media di cinque; due minuti è uguale a una deviazione standard.
Il tempo di attesa di Rosa di sette minuti è di due minuti in più rispetto alla media di cinque minuti.
Il tempo di attesa di Rosa di sette minuti è una deviazione standard superiore alla media di cinque minuti.

Binh attende un minuto.,

Uno è quattro minuti in meno rispetto alla media di cinque; quattro minuti è uguale a due deviazioni standard.
Il tempo di attesa di Binh di un minuto è quattro minuti in meno rispetto alla media di cinque minuti.
Il tempo di attesa di Binh di un minuto è di due deviazioni standard al di sotto della media di cinque minuti.

Un valore di dati che è due deviazioni standard dalla media è solo al limite per quello che molti statistici considererebbero essere lontano dalla media., Considerando che i dati sono lontani dalla media se sono più di due deviazioni standard è più di una “regola empirica” approssimativa che una regola rigida. In generale, la forma della distribuzione dei dati influisce sulla quantità di dati più lontana di due deviazioni standard. (Si impara di più su questo nei capitoli successivi.)

Il numero di linea può aiutare a capire deviazione standard. Se dovessimo mettere cinque e sette su una linea numerica, sette è a destra di cinque. Diciamo, quindi, che sette è
una deviazione standard a destra di cinque perché 5 + (1)(2) = 7.,

Se anche uno fa parte del set di dati, allora uno è due deviazioni standard a sinistra di cinque perché 5 + (-2)(2) = 1.

Il valore dell’equazione = media + (#ofSTDEVs)(deviazione standard) può essere espresso per un campione e per una popolazione.

La lettera minuscola s rappresenta la deviazione standard del campione e la lettera greca σ (sigma, minuscolo) rappresenta la deviazione standard della popolazione.,

Calcolo della deviazione standard

La procedura per calcolare la deviazione standard dipende dal fatto che i numeri siano l’intera popolazione o siano dati da un campione. I calcoli sono simili, ma non identici. Pertanto, il simbolo utilizzato per rappresentare la deviazione standard dipende dal fatto che sia calcolato da una popolazione o da un campione. La lettera minuscola s rappresenta la deviazione standard del campione e la lettera greca σ (sigma, minuscolo) rappresenta la deviazione standard della popolazione., Se il campione ha le stesse caratteristiche della popolazione, allora s dovrebbe essere una buona stima di σ.

Se i numeri provengono da un censimento dell’intera popolazione e non da un campione, quando calcoliamo la media delle deviazioni al quadrato per trovare la varianza, dividiamo per N, il numero di elementi nella popolazione. Se i dati provengono da un campione piuttosto che da una popolazione, quando calcoliamo la media delle deviazioni al quadrato, dividiamo per n – 1, uno in meno del numero di elementi nel campione.,

Nel seguente video viene presentato un esempio di calcolo della varianza e della deviazione standard di un insieme di dati.

Formule per la Deviazione Standard del Campione

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

Per la deviazione standard del campione, il denominatore è n – 1, che è la dimensione del campione, MENO 1.,

Formule per la Deviazione Standard della Popolazione

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

Per la deviazione standard della popolazione, il denominatore è N, il numero di elementi della popolazione.

Variabilità di campionamento di una statistica

Quanto la statistica varia da un campione all’altro è nota come variabilità di campionamento di una statistica. In genere si misura la variabilità di campionamento di una statistica in base al suo errore standard., L’errore standard della media è un esempio di errore standard. È una deviazione standard speciale ed è nota come deviazione standard della distribuzione di campionamento della media. Coprirai l’errore standard della media quando apprenderai il Teorema del Limite centrale (non ora). La notazione per l’errore standard della media è \ displaystyle \ frac {{\sigma}} {{\sqrt{n}}} dove σ è la deviazione standard della popolazione e n è la dimensione del campione.

Nota

In pratica, utilizzare una calcolatrice o un software per computer per calcolare la deviazione standard., Se si utilizza una calcolatrice TI-83, 83+, 84+, è necessario selezionare la deviazione standard appropriata σ_x o s_x dalle statistiche di riepilogo. Ci concentreremo sull’utilizzo e sull’interpretazione delle informazioni che la deviazione standard ci fornisce. Tuttavia, dovresti studiare il seguente esempio passo-passo per aiutarti a capire come la deviazione standard misura la variazione dalla media. (Le istruzioni della calcolatrice appaiono alla fine di questo esempio.,)

Spiegazione del calcolo della deviazione standard mostrato nella tabella

Le deviazioni mostrano la distribuzione dei dati sulla media. Il valore dei dati 11.5 è più lontano dalla media rispetto al valore dei dati 11 che è indicato dalle deviazioni 0.97 e 0.47. Una deviazione positiva si verifica quando il valore dei dati è maggiore della media, mentre una deviazione negativa si verifica quando il valore dei dati è inferiore alla media. La deviazione è -1.525 per il valore dei dati nove. Se si aggiungono le deviazioni, la somma è sempre zero. (Ad esempio 1, ci sono n = 20 deviazioni.,) Quindi non puoi semplicemente aggiungere le deviazioni per ottenere la diffusione dei dati. Quadrando le deviazioni, li rendi numeri positivi e anche la somma sarà positiva. La varianza, quindi, è la deviazione media al quadrato.

La varianza è una misura quadrata e non ha le stesse unità dei dati. Prendendo la radice quadrata risolve il problema. La deviazione standard misura lo spread nelle stesse unità dei dati.

Si noti che invece di dividere per n= 20, il calcolo diviso per n-1 = 20-1 = 19 perché i dati sono un campione., Per la varianza del campione, dividiamo per la dimensione del campione meno uno (n – 1). Perché non dividere per n? La risposta ha a che fare con la varianza della popolazione. La varianza del campione è una stima della varianza della popolazione. Sulla base della matematica teorica che sta dietro questi calcoli, dividendo per (n-1) fornisce una stima migliore della varianza della popolazione.

Nota

La tua concentrazione dovrebbe essere su ciò che la deviazione standard ci dice sui dati. La deviazione standard è un numero che misura la distanza dei dati dalla media., Lascia che una calcolatrice o un computer facciano l’aritmetica.

La deviazione standard, s o σ, è zero o maggiore di zero. Quando la deviazione standard è zero, non c’è spread; cioè, tutti i valori dei dati sono uguali tra loro. La deviazione standard è piccola quando i dati sono tutti concentrati vicino alla media, ed è più grande quando i valori dei dati mostrano più variazione dalla media. Quando la deviazione standard è molto più grande di zero, i valori dei dati sono molto distribuiti sulla media; i valori anomali possono rendere s o σ molto grandi.,

La deviazione standard, quando viene presentata per la prima volta, può sembrare poco chiara. Graficamente i dati, è possibile ottenere una migliore “sentire” per le deviazioni e la deviazione standard. Troverete che nelle distribuzioni simmetriche, la deviazione standard può essere molto utile, ma nelle distribuzioni distorte, la deviazione standard potrebbe non essere di grande aiuto. Il motivo è che i due lati di una distribuzione distorta hanno spread diversi. In una distribuzione distorta, è meglio guardare il primo quartile, la mediana, il terzo quartile, il valore più piccolo e il valore più grande., Perché i numeri possono essere fonte di confusione, sempre grafico i dati. Visualizzare i dati in un istogramma o in un box plot.

Deviazione standard delle tabelle di frequenza raggruppate

Ricordiamo che per i dati raggruppati non conosciamo i valori dei singoli dati, quindi non possiamo descrivere il valore tipico dei dati con precisione. In altre parole, non possiamo trovare la media esatta, la mediana o la modalità., Possiamo, tuttavia, determinare la migliore stima delle misure del centro trovando la media dei dati raggruppati con la formula:

Mean of Frequency Table =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

dove f = frequenze di intervallo e m = punti medi di intervallo.

Proprio come non siamo riusciti a trovare la media esatta, né possiamo trovare la deviazione standard esatta. Ricorda che la deviazione standard descrive numericamente la deviazione prevista che un valore di dati ha dalla media. In inglese semplice, la deviazione standard ci consente di confrontare il modo in cui i dati individuali “insoliti” vengono confrontati con la media.,

Confronto di valori da set di dati diversi

La deviazione standard è utile quando si confrontano valori di dati provenienti da set di dati diversi. Se i set di dati hanno mezzi e deviazioni standard diversi, il confronto diretto dei valori dei dati può essere fuorviante.

#ofSTDEVs è spesso chiamato “z-score” ; possiamo usare il simbolo z., In simboli, formule diventare:

Esempio	x=\overline{x}+zs	z = \frac{x – \overline{x}}{s}
Popolazione	x = µ + zσ	z = \frac{x – m}{s}

Il seguente è un elenco di dare un paio di fatti che forniscono un po ‘ più profonda conoscenza di ciò che la deviazione standard ci racconta la distribuzione dei dati.,

Per QUALSIASI set di dati, non importa quale sia la distribuzione dei dati:

Per i dati con una distribuzione a forma di CAMPANA e SIMMETRICA:

Circa il 68% dei dati si trova all’interno di una deviazione standard della media.
Circa il 95% dei dati si trova entro due deviazioni standard della media.
Più del 99% dei dati si trova entro tre deviazioni standard della media.
Questa è nota come Regola Empirica.
È importante notare che questa regola si applica solo quando la forma della distribuzione dei dati è a campana e simmetrica., Impareremo di più su questo quando studieremo la distribuzione di probabilità” Normale “o” gaussiana” nei capitoli successivi.

Concetto Review

La deviazione standard può aiutare a calcolare la diffusione dei dati. Ci sono diverse equazioni da usare se stanno calcolando la deviazione standard di un campione o di una popolazione.

Formula Recensione

\displaystyle{s}_{x}=\sqrt{{\frac{{\sum{fm}^{2}}}{{n}} – {x}^{2}}}

dove \displaystyle{s}_{x} = deviazione standard del campione, \displaystyle\overline{x} = media del campione

Risultati di apprendimento

La deviazione standard fornisce una misura della variazione complessiva in un set di dati.

La deviazione standard può essere utilizzata per determinare se un valore di dati è vicino o lontano dalla media.

Calcolo della deviazione standard

Formule per la Deviazione Standard del Campione

Formule per la Deviazione Standard della Popolazione

Variabilità di campionamento di una statistica

Nota

Spiegazione del calcolo della deviazione standard mostrato nella tabella

Nota

Deviazione standard delle tabelle di frequenza raggruppate

Confronto di valori da set di dati diversi

Concetto Review

Formula Recensione

Lascia un commento Annulla risposta