1. UddannelseMathStatistikStatistik og histogrammer
Statistikarbejdsbog til dummies med online praksis, 2. udgave

Af Deborah J. Rumsey

Et histogram er en søjlediagram lavet til kvantitative data. Da dataene er numeriske, deler du dem op i grupper uden at efterlade nogen mellemrum (så bjælkerne er forbundet). Y-aksen viser enten frekvenser (tæller) eller relative frekvenser (procent) af de data, der falder ind i hver gruppe.

Sådan opretter du et histogram

For at oprette et histogram skal du først opdele dine data i et rimeligt antal grupper af samme længde. Sammenlign antallet af værdier i datasættet, der falder ind i hver gruppe (med andre ord, lav en frekvenstabel). Hvis et datapunkt falder på grænsen, skal du tage en beslutning om, hvilken gruppe du skal sætte det i, og sørg for at forblive konsistent (læg det altid i den øverste af de to, eller læg det altid i den nederste af de to). Lav en søjlediagram ved hjælp af grupperne og deres frekvenser - et frekvenshistogram.

Hvis du deler frekvenserne med den samlede prøvestørrelse, får du den procentdel, der falder ind i hver gruppe. En tabel, der viser grupperne og deres procenter er en relativ frekvenstabel. Det tilsvarende histogram er et relativ frekvenshistogram.

Du kan bruge Minitab eller en anden softwarepakke til at lave histogrammer, eller du kan lave dine histogrammer manuelt. Uanset hvad, kan dit valg af intervalbredder (kaldet skraldespand ved computerpakker) være anderledes end dem, der ses i figurerne, hvilket er fint, så længe din ser ens ud. Og de vil, så længe du ikke bruger et usædvanligt lavt eller højt antal søjler, og dine søjler har samme bredde.

Du kan også vælge forskellige start / slutpunkter for hvert interval, og det er også fint. Bare sørg for at markere alt klart, så din instruktør kan se, hvad du prøver at gøre. Og vær konsekvent om værdier, der ender lige ved en grænse; læg dem altid i den nedre gruppering, eller læg dem altid i den øvre gruppering. Hvis du har et valg, skal du dog oprette dine histogrammer ved hjælp af en computerpakke som Minitab. Det gør din opgave meget lettere.

Se følgende for et eksempel på fremstilling af de to typer histogrammer.

Testresultater for en klasse på 30 studerende vises i følgende tabel.

Frekvenshistogrammer og relative frekvenshistogrammer ser ens ud; de er lige færdige med forskellige skalaer på Y-aksen.

Frekvenshistogrammet for scoresdataene vises i følgende figur.

frekvenshistogram

Du finder de relative frekvenser ved at tage hver frekvens og dividere med 30 (den samlede prøvestørrelse). De relative frekvenser for disse tre grupper er 8/30 = 0,27 eller 27%; 16/30 = 0,53 eller 53%; og 6/30 = henholdsvis 0,20 eller 20%.

Et histogram baseret på relative frekvenser ligner det histogram (af de samme data). Den eneste forskel er etiketten på Y-aksen.

Få mening i histogrammer

Et histogram giver dig generelle oplysninger om tre hovedfunktioner i dine kvantitative (numeriske) data: form, center og spredning.

Formen på et histogram vises ved dets generelle mønster. Mange mønstre er mulige, og nogle er almindelige, herunder følgende:

  • Klokkeformet: Ser ud som en klokke - en stor klump i midten og haler, der går ned på hver side med omtrent samme hastighed. (Figur a) Højre skæv: En stor del af dataene er sat ud til venstre, med et par større observationer, der slæber ud til højre. (Figur b) Venstre skæv: En stor del af dataene er sat ud til højre, med et par mindre observationer, der slæber ud til venstre. (Figur c) Ensartet: Alle stænger har en lignende højde. (Figur d) Bimodal: To toppe, eller (figur e) U-formet: Bimodal med de to toppe i lave og høje ender, med mindre data i midten. (Se figur 4-1 (figur f) Symmetrisk: Ser den samme ud på hver side, når du deler den ned i midten; klokkeformede, ensartede og U-formede histogrammer er alle eksempler på symmetriske data. (Figur a, d og f)
almindelige histogrammønstre

Du kan se midten af ​​et histogram på to måder. Det ene er punktet på x-aksen, hvor grafen balanserer under hensyntagen til de faktiske værdier af dataene. Dette punkt kaldes gennemsnittet, og du kan finde det ved at lokalisere balanceringspunktet (forestil dig, at dataene er på et teeter-totter). Den anden måde at se centrum på er at lokalisere linjen i histogrammet, hvor 50 procent af dataene ligger på hver side. Linjen kaldes medianen, og den repræsenterer den fysiske midten af ​​datasættet. Forestil dig at skære histogrammet i halve, så halvdelen af ​​området ligger på hver side af linjen.

Spredning henviser til afstanden mellem dataene, enten i forhold til hinanden eller i forhold til et centralt punkt. En rå måde at måle spredning er at finde intervallet eller afstanden mellem den største værdi og den mindste værdi. En anden måde er at kigge efter den gennemsnitlige afstand fra midten, ellers kendt som standardafvigelsen. Det er vanskeligt at finde standardafvigelsen ved blot at se på et histogram, men du kan få en grov idé, hvis du tager området divideret med 6. Hvis højderne på bjælkerne tæt på midten virker meget høje, betyder det mest værdierne er tæt på gennemsnittet, hvilket indikerer en lille standardafvigelse. Hvis søjlerne vises korte, kan du have en større standardafvigelse.

Du kan lave faktiske oversigtsstatistikker for at beregne de kvantitative data, men et histogram kan give dig en generel retning for at finde disse milepæle. Og ligesom cirkeldiagrammer og søjlediagrammer er ikke alle histogrammer retfærdige, komplette og nøjagtige. Du skal vide, hvad du skal kigge efter for at evaluere dem.

Sådan retter du skæve data ud med histogrammer

Du skal tage særlige overvejelser til skæve datasæt, med hensyn til hvilke statistikker der er bedst at bruge og hvornår. Du skal også være opmærksom på, hvordan brug af forkert statistik kan give vildledende svar.

Du kan relatere middelværdien og medianen for at lære om formen på dine data. At have middelværdien og medianen tæt på at være lige vil skabe en form, der er nogenlunde symmetrisk

Middelværdien påvirkes af outliers i dataene, men medianen er det ikke. Hvis middelværdien og medianen er tæt på hinanden, er dataene ikke skæve og indeholder sandsynligvis ikke outliers på den ene eller den anden side. Det betyder, at dataene ser ens ud på hver side af midten, hvilket er definitionen af ​​symmetriske data (se a, d eller f i den foregående figur).

Det faktum, at middelværdien og medianen er tæt, fortæller dig, at dataene er nogenlunde symmetriske, kan bruges i en anden type testspørgsmål. Antag, at nogen spørger dig, om dataene er symmetriske, og at du ikke har et histogram, men du har middelværdien og medianen. Sammenlign de to værdier af middelværdien og medianen, og hvis de er tæt, er dataene symmetriske. Hvis de ikke er det, er dataene ikke symmetriske.

Sådan finder du et vildledende histogram

Læsere kan vildledes af et histogram på måder, der ikke er muligt med en søjlediagram. Husk, at et histogram handler om numeriske data, ikke kategoriske data, hvilket betyder, at du er nødt til at bestemme, hvordan du vil have de numeriske data opdelt i grupper, der skal vises på den vandrette akse. Og hvordan du bestemmer disse grupperinger kan få grafen til at se meget anderledes ud. Se efter histogrammer, der bruger skala for at vildlede læsere. Som med søjlediagrammer, kan du overdrive forskelle ved at bruge en mindre skala på den lodrette akse på et histogram, og du kan nedtone forskelle ved hjælp af en større skala.