1. UddannelseMathStatistikUtståelse af de statistiske egenskaber ved den normale distribution
Statistikarbejdsbog til dummies med online praksis, 2. udgave

Af Deborah J. Rumsey

Statistikere kalder en distribution med en klokkeformet kurve en normal fordeling. Du har muligvis hørt om en klokkekurve. En klokkekurve beskriver data fra en variabel, der har et uendeligt (eller meget stort) antal mulige værdier fordelt på befolkningen i en klokkeform. Dette betyder dybest set, at en stor gruppe af personer trækker sig tæt på midten, med færre og færre individer bagefter, når du bevæger dig væk fra midten i begge retninger.

Du kan se en normal fordelings form i denne figur.

Normal fordeling eller klokkekurve

Hver normal distribution har bestemte egenskaber. Du kan bruge disse egenskaber til at bestemme den relative status for et bestemt resultat på fordelingen.

Når du forstår egenskaberne ved den normale distribution, finder du det lettere at fortolke statistiske data. En kontinuerlig tilfældig variabel X har en normal fordeling, hvis dens værdier falder i en jævn (kontinuerlig) kurve med et klokkeformet mønster. Hver normalfordeling har sit eget middel, betegnet med det græske bogstav μ og sit eget standardafvigelse, betegnet med det græske bogstav σ.

Men uanset hvad deres middel og standardafvigelser er, har alle normale fordelinger den samme grundlæggende klokkeform.

Egenskaberne ved enhver normal distribution (klokkekurve) er som følger:

  • Formen er symmetrisk. Distributionen har en haug i midten med haler, der går ned til venstre og højre. Gennemsnittet er direkte midt i fordelingen. (Middelværdien af ​​befolkningen er angivet med det græske bogstav μ.) Middelværdien og medianen er den samme værdi på grund af symmetrien. Standardafvigelsen er afstanden fra centrum til sadelpunktet (det sted, hvor kurven skifter fra en "op-ned-skål" -form til en "højre side-op-skål" -form.). betegnes med det græske bogstav σ.)
Sadlen peger på en klokkekurve
  • Cirka 68 procent af værdierne ligger inden for en standardafvigelse af gennemsnittet, ca. 95 procent ligger inden for to standardafvigelser, og de fleste af værdierne (99,7 procent eller mere) ligger inden for tre standardafvigelser efter den empiriske regel. Hver normalfordeling har en anden gennemsnit og standardafvigelse, der får den til at se lidt anderledes ud fra resten, men alligevel har de alle samme klokkeform.

Se på den følgende figur.

Tre normale fordelinger med midler og standardafvigelser på a) 90 og 30; b) 120 og 30; og

For at sammenligne og kontrastere fordelingen vist i figuren, ser du først, at de alle er symmetriske med signaturklokkeformen. Eksempler (a) og (b) har den samme standardafvigelse, men deres midler er forskellige; middelværdien i eksempel (b) er placeret 30 enheder til højre for middelværdien i eksempel (a), fordi dets gennemsnit er 120 sammenlignet med 90. Eksempler (a) og (c) har det samme middel (90), men eksempel ( a) har mere variabilitet end eksempel (c) på grund af dets højere standardafvigelse (30 sammenlignet med 10). På grund af den øgede variation er de fleste af værdierne i eksempel (a) mellem 0 og 180 (ca.), mens de fleste af værdierne i eksempel (c) kun ligger mellem 60 og 120.

Endelig har eksempler (b) og (c) forskellige midler og forskellige standardafvigelser helt; Eksempel (b) har et højere middelværdi, der skifter grafen til højre, og eksempel (c) har en mindre standardafvigelse; dens dataværdier er de mest koncentrerede omkring gennemsnittet.

Bemærk, at middel- og standardafvigelsen er vigtig for korrekt at kunne fortolke tal placeret i en bestemt normalfordeling. For eksempel kan du sammenligne, hvor værdien 120 falder på hver af de normale fordelinger i ovenstående figur. I eksempel (a) er værdien 120 en standardafvigelse over gennemsnittet (fordi standardafvigelsen er 30, får du 90 + 1 [30] = 120). Så på denne første distribution er værdien 120 den øverste værdi for det område, hvor de midterste 68% af dataene er placeret, i henhold til den empiriske regel.

I eksempel (b) ligger værdien 120 direkte på middelværdien, hvor værdierne er mest koncentreret. I eksempel (c) er værdien 120 vej ud til højre kant, 3 standardafvigelser over gennemsnittet (fordi standardafvigelsen denne gang er 10, får du 90 + 3 [10] = 120). I eksempel (c) er det meget usandsynligt, at værdier over 120 forekommer, fordi de ligger uden for det område, hvor de midterste 99,7% af værdierne skal være i henhold til den empiriske regel.