résultats D’apprentissage
- reconnaître, décrire et calculer les mesures de la propagation des données: variance, écart-type et Plage.
Une caractéristique importante de tout ensemble de données est la variation dans les données. Dans certains jeux de données, les valeurs des données sont concentrés étroitement proche de la moyenne; dans d’autres ensembles de données, les valeurs des données sont plus largement répartis de la moyenne. La mesure la plus courante de variation, ou écart, est l’écart type., L’écart type est un nombre qui mesure la distance entre les valeurs des données et leur moyenne.
l’écart type fournit une mesure numérique de la quantité globale de variation dans un ensemble de données, et peut être utilisé pour déterminer si une valeur de données particulière est proche ou éloignée de la moyenne.
l’écart type fournit une mesure de la variation globale d’un ensemble de données.
L’écart-type est toujours positif ou nul. L’écart-type est faible lorsque les données sont toutes concentrées près de la moyenne, présentant peu de variation ou d’écart., L’écart type est plus grand lorsque les valeurs des données sont plus étalées par rapport à la moyenne, ce qui présente plus de variation.
supposons que nous étudions le temps pendant lequel les clients font la queue à la caisse au supermarché A et au supermarché B. Le temps d’attente moyen dans les deux supermarchés est de cinq minutes. Au supermarché, l’écart-type pour le temps d’attente est de deux minutes; au supermarché B l’écart-type pour le temps d’attente est de quatre minutes.
parce que le Supermarché B a un écart type plus élevé, nous savons Qu’il y a plus de variation dans les temps D’attente au supermarché B., Dans l’ensemble, le temps d’attente au supermarché B sont plus répartis de la moyenne; le temps d’attente au supermarché sont plus concentrés près de la moyenne.
L’écart-type peut être utilisé pour déterminer si une valeur est proche ou loin de la moyenne.
supposons que Rosa et Binh achètent tous deux au supermarché A. Rosa attend à la caisse pendant sept minutes et Binh attend une minute. Au supermarché A, le temps d’attente moyen est de cinq minutes et l’écart type est de deux minutes., L’écart-type peut être utilisé pour déterminer si une valeur est proche ou loin de la moyenne.
Rosa attend, pour sept minutes:
- Sept est deux minutes de plus que la moyenne des cinq; deux minutes est égal à un écart-type.
- Le temps d’attente de Rosa de sept minutes est deux minutes de plus que la moyenne de cinq minutes.
- Le temps d’attente de Rosa de sept minutes est un écart type supérieur à la moyenne de cinq minutes.
Binh attend une minute.,
- Un est quatre minutes de moins que la moyenne de cinq; quatre minutes est égal à deux écarts types.
- Binh du temps d’attente d’une minute est de quatre minutes de moins que la moyenne de cinq minutes.
- Le temps d’attente de Binh d’une minute est deux écarts types inférieurs à la moyenne de cinq minutes.
une valeur de données qui est deux écarts-types par rapport à la moyenne est juste à la limite de ce que de nombreux statisticiens considéreraient comme étant loin de la moyenne., Considérer que les données sont loin de la moyenne si elles sont à plus de deux écarts types est plus une « règle empirique” approximative qu’une règle rigide. En général, la forme de la distribution des données affecte la quantité de données qui est plus éloignée que deux écarts-types. (Vous en apprendrez plus à ce sujet dans les chapitres suivants.)
la ligne numérique peut vous aider à comprendre l’écart type. Si nous devions mettre cinq et sept sur une ligne numérique, sept est à droite de cinq. Nous disons, alors, que sept est
un écart type à droite de cinq parce que 5 + (1)(2) = 7.,
Si l’un faisait également partie de l’ensemble de données, alors l’un est deux écarts types à gauche de cinq parce que 5 + (-2)(2) = 1.
L’équation de la valeur = moyenne + (#ofSTDEVs)(écart-type) peut être exprimée pour un échantillon et une population.
La minuscule lettre s représente l’écart-type d’échantillon et la lettre grecque σ (sigma, minuscules) représente l’écart type de population.,
calcul de l’écart-type
la procédure de calcul de l’écart-type dépend du fait que les chiffres correspondent à la population entière ou aux données d’un échantillon. Les calculs sont similaires, mais pas identiques. Par conséquent, le symbole utilisé pour représenter l’écart type dépend du fait qu’il est calculé à partir d’une population ou d’un échantillon. La minuscule lettre s représente l’écart-type d’échantillon et la lettre grecque σ (sigma, minuscules) représente l’écart type de population., Si l’échantillon possède les mêmes caractéristiques que la population, devrait être une bonne estimation de σ.
Si les chiffres proviennent d’un recensement de la population entière et non d’un échantillon, lorsque nous calculons la moyenne des écarts au carré pour trouver la variance, nous divisons par N, le nombre d’éléments dans la population. Si les données proviennent d’un échantillon plutôt que d’une population, lorsque nous calculons la moyenne des écarts au carré, nous divisons par n – 1, un de moins que le nombre d’éléments de l’échantillon.,
Dans la vidéo ci-dessous un exemple de calcul de la variance et de l’écart type d’un ensemble de données est présentée.
des Formules pour l’Échantillon Écart-type
\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}
Pour l’écart-type d’échantillon, le dénominateur est n – 1, qui est la taille de l’échantillon MOINS 1.,
des Formules pour l’Écart type de Population
\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}
Pour l’écart type de population, le dénominateur est N, le nombre d’éléments dans la population.
la Variabilité de l’Échantillonnage d’une Statistique
Combien la statistique varie d’un échantillon à un autre est connu comme la variabilité d’échantillonnage de la statistique. Vous mesurez généralement la variabilité d’échantillonnage d’une statistique par son erreur type., L’erreur type de la moyenne est un exemple d’erreur type. Il s’agit d’un écart type spécial et est connu sous le nom d’écart type de la distribution d’échantillonnage de la moyenne. Vous couvrirez l’erreur type de la moyenne lorsque vous apprendrez le théorème central limite (pas maintenant). La notation pour l’erreur standard de la moyenne est \displaystyle\frac{{\sigma}}{{\sqrt{n}}} où σ est l’écart type de la population et n est la taille de l’échantillon.
Remarque
en pratique, utilisez une calculatrice ou un logiciel pour calculer l’écart type., Si vous utilisez une calculatrice TI-83, 83+, 84+, vous devez sélectionner l’écart type σ_x ou s_x approprié dans les statistiques récapitulatives. Nous allons nous concentrer sur l’utilisation et l’interprétation des informations que l’écart-type nous donne. Cependant, vous devriez étudier l’exemple étape par étape suivant pour vous aider à comprendre comment l’écart-type mesure la variation par rapport à la moyenne. (Les instructions de la calculatrice apparaissent à la fin de cet exemple.,)
explication du calcul de l’écart-type indiqué dans le tableau
Les écarts montrent la répartition des données sur la moyenne. La valeur de données 11,5 est plus éloignée de la moyenne que la valeur de données 11 qui est indiquée par les écarts 0,97 et 0,47. Un positif de déviation se produit lorsque la valeur des données est supérieure à la moyenne, alors qu’un écart négatif se produit lorsque la valeur des données est inférieure à la moyenne. L’écart est de -1,525 pour la valeur de données neuf. Si vous ajoutez les écarts, la somme est toujours nulle. (Par exemple 1, Il y a n = 20 écarts.,) Vous ne pouvez donc pas simplement ajouter les écarts pour obtenir la propagation des données. En Quadrant les écarts, vous en faites des nombres positifs, et la somme sera également positive. La variance est donc l’écart moyen au carré.
la variance est une mesure au carré et n’a pas les mêmes unités que les données. Prendre la racine carrée résout le problème. L’écart-type mesure l’écart dans les mêmes unités que les données.
Notez qu’au lieu de diviser par n= 20, le calcul divisé par n – 1 = 20 – 1 = 19 parce que les données sont un exemple., Pour la variance de l’échantillon, on divise par la taille de l’échantillon moins un (n – 1). Pourquoi ne pas diviser par n? La réponse a à voir avec la variance de population. La variance de l’échantillon est une estimation de la variance de population. Sur la base des mathématiques théoriques qui sous – tendent ces calculs, la division par (n-1) donne une meilleure estimation de la variance de la population.
Remarque
Votre concentration doit être sur ce que l’écart-type nous dit sur les données. L’écart type est un nombre qui mesure la distance entre les données et la moyenne., Laissez une calculatrice ou un ordinateur faire l’arithmétique.
l’écart type, s ou σ, est égal ou supérieur à zéro. Lorsque l’écart type est nul, il n’y a pas d’écart; c’est-à-dire que toutes les valeurs des données sont égales les unes aux autres. L’écart-type est faible lorsque les données sont toutes concentrées près de la moyenne, et est plus grand lorsque les valeurs des données montrent plus de variation par rapport à la moyenne. Lorsque l’écart type est beaucoup plus grand que zéro, les valeurs des données sont très réparties sur la moyenne; les valeurs aberrantes peuvent rendre s ou σ très grand.,
l’écart type, lorsqu’il est présenté pour la première fois, peut sembler peu clair. En faisant un graphique de vos données, vous pouvez obtenir une meilleure « sensation” pour les écarts et l’écart-type. Vous constaterez que dans les distributions symétriques, l’écart-type peut être très utile, mais dans les distributions asymétriques, l’écart-type peut ne pas être d’une grande aide. La raison en est que les deux côtés d’une distribution asymétrique ont différents écarts. Dans une distribution asymétrique, il est préférable de regarder le premier quartile, la médiane, le troisième quartile, la valeur la plus petite et la plus grande valeur., Parce que les chiffres peuvent être déroutants, toujours représenter graphiquement vos données. Affichez vos données dans un histogramme ou un encadré.
écart type des tables de fréquence groupées
rappelez-vous que pour les données groupées, nous ne connaissons pas les valeurs de données individuelles, nous ne pouvons donc pas décrire la valeur typique des données avec précision. En d’autres termes, nous ne pouvons pas trouver la moyenne exacte, la médiane ou le mode., On peut cependant déterminer la meilleure estimation des mesures de centre en trouvant la moyenne des données groupées avec la formule:
moyenne de fréquence Table =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}
où f = fréquences d’intervalle et m = médiums d’intervalle.
tout comme nous ne pouvions pas trouver la moyenne exacte, nous ne pouvons pas trouver exactement la même écart-type. N’oubliez pas que l’écart type décrit numériquement l’écart attendu d’une valeur de données par rapport à la moyenne. En anglais simple, l’écart-type nous permet de comparer la façon dont les données individuelles « inhabituelles” sont comparées à la moyenne.,
comparaison des valeurs de différents ensembles de données
l’écart type est utile lorsque l’on compare des valeurs de données provenant de différents ensembles de données. Si les ensembles de données ont des moyennes et des écarts types différents, la comparaison directe des valeurs de données peut être trompeuse.
#ofSTDEVs est souvent appelé ” Z-score”; nous pouvons utiliser le symbole z., Dans les symboles, les formules deviennent:
Exemple | x=\overline{x}+zs | z = \frac{x – \overline{x}}{s} |
Population | x = μ + zσ | z = \frac{x – μ}{σ} |
Les listes suivantes donnent quelques faits qui fournissent un peu plus de perspicacité dans ce que l’écart-type nous dit à propos de la distribution des données.,
pour tout ensemble de données, quelle que soit la distribution des données:
pour les données ayant une distribution en forme de cloche et symétrique:
- environ 68% des données se trouvent dans un écart-type de la moyenne.
- environ 95% des données se trouvent à moins de deux écarts-types de la moyenne.
- Plus de 99% des données est à moins de trois écarts-types de la moyenne.
- c’est ce qu’on appelle la règle empirique.
- Il est important de noter que cette règle ne s’applique que lorsque la forme de la distribution des données est en forme de cloche et symétrique., Nous en apprendrons plus à ce sujet en étudiant la distribution de probabilité « normale” ou « gaussienne” dans les chapitres suivants.
examen du Concept
l’écart type peut vous aider à calculer la propagation des données. Il existe différentes équations à utiliser pour calculer l’écart type d’un échantillon ou d’une population.
la Formule de Révision
\displaystyle{s}_{x}=\sqrt{{\frac{{\sum{fm}^{2}}}{{n}} – {x}^{2}}}
où \displaystyle{s}_{x} = écart-type d’échantillon, \displaystyle\overline{x} = moyenne d’échantillonnage