Ethvert datasett som er akkumulert for statistiske formål, for eksempel den amerikanske folketellingen, inneholder informasjon som krever summering og aggregering. Det er nesten umulig å liste opp attributtene, for eksempel som individuelle inntekter og familiestørrelser. Statistikere bruker grafer for frekvensfordeling for å skildre dataene på en omfattende måte. For eksempel deler et histogram data inn i klassevis og teller frekvensen som alle medlemmene som tilhører det klasse intervallet oppstår.Selv om det ikke er noen strenge regler for hvordan man beregner størrelse og antall klassintervaller, er det noen nyttige konvensjonelle kriterier.
Beregn datoperioden, dvs. forskjellen mellom de høyeste og laveste datapunktene. Anta for eksempel at den høyest betalte personen i USA tjener 30 milliarder dollar i året og den laveste tjener null. Området er lik 30 - 0, som tilsvarer 30 milliarder dollar.
Bestem antall klasser fra utvalgsstørrelse. Som tommelfingerregel brukes fem til syv klasser for prøvestørrelse opp til 50, åtte til 10 klasser for prøvestørrelse mellom 50 og 100, 10 til 15 klasser for prøvestørrelse mellom 100 og 250 og 15 til 20 klasser for prøvestørrelse større enn 250.
Beregn klasseintervallet ved hjelp av følgende formel: Klasseversjon = område ÷ antall klasser. Hvis du har 15 inntektsklasser i inntektsfordelingen, kan du trene 30 ÷ 15 = 2 milliarder dollar. Ofte ignorerer statistikere ekstremt høye og lave tall og fokuserer på mellomtone-frekvensene. Av denne grunn blir inntektsfordelingen i USA presentert i mindre intervaller på $ 10.000 med inntekter større enn et visst tall, vanligvis en million, klumpet sammen i et enkelt klasses intervall.
Bruk skjønn når du beregner klasseintervall. Den hellige gralen til en graf som et histogram er å formidle relevant informasjon på en meningsfull og enkel måte. Velg klasseintervaller for å formidle informasjonen du anser som verdig for lesernes oppmerksomhet.