Innhold
Næringsliv, myndigheter og akademisk virksomhet krever nesten alltid innsamling og analyse av data. En av måtene å representere numeriske data på er gjennom grafer, histogrammer og diagrammer. Disse visualiseringsteknikkene lar folk få bedre innsikt i problemer og tenke ut løsninger. Gap, klynger og utliggere er kjennetegn ved datasett som påvirker matematisk analyse og er lett synlige på visuelle representasjoner.
Hull i dataene
Gap refererer til manglende områder i et datasett. Hvis for eksempel et vitenskapelig eksperiment samler inn temperaturdata i området 50 grader Fahrenheit til 100 grader Fahrenheit, men ingenting mellom 70 og 80 grader, vil det representere et gap i datasettet. Et linjediagram av dette datasettet vil ha "x" -merker for temperaturer mellom 50 og 70 og igjen mellom 80 og 100, men det vil ikke være noe mellom 70 og 80. Forskere kan grave dypere og utforske hvorfor visse datapunkter ikke dukker opp i en samlet prøve.
Isolerte grupper
Klynger er isolerte grupper av datapunkter. Linjeplott, som er en av måtene å representere datasett, er linjer med "x" -merker plassert over spesifikke tall for å skildre deres hyppighet av forekomst i datasettet. En klynge er avbildet som en samling av disse "x" -merkene i et lite intervall eller dataundersett. For eksempel, hvis eksamensscore for en klasse på 10 elever er 74, 75, 80, 72, 74, 75, 76, 86, 88 og 73, vil flest "x" -merker på en linjeplott være i 72- score til 76 poeng. Dette ville representere en dataklynge. Legg merke til at frekvensen for 74 og 75 er to, men for alle andre poengsummer er den én.
På det ekstreme
Outliers er ekstreme verdier - datapunkter som ligger betydelig utenfor andre verdier i et datasett. En outlier må være betydelig mindre enn eller større enn flertallet av tallene i et datasett. Definisjonen av "ekstrem" avhenger av omstendighetene og en enighet av analytikerne som er involvert i forskningen. Outliers kan være dårlige datapunkter, også kjent som støy, eller de kan inneholde verdifull informasjon om fenomenet som undersøkes og selve datainnsamlingsmetodikken. For eksempel, hvis klassescore er stort sett i området 70 til 80, men et par poengsummer er i de lave 50-årene, kan dette representere outliers.
Sette alt sammen
Gap, outliers og klynger i datasett kan påvirke resultatene av matematisk analyse. Mellomrom og klynger kan representere feil i metoden for datainnsamling. For eksempel, hvis en telefonundersøkelse bare kartlegger bestemte områdekoder, for eksempel boligkomplekser med lav inntekt eller høytliggende forstadsområder, og ikke et bredt tverrsnitt av befolkningen, er sjansen stor for at det vil være hull og klynger i dataene . Outliers kan skje middelverdien eller gjennomsnittsverdien til et datasett. For eksempel er middelverdien eller gjennomsnittsverdien til et datasett bestående av fire tall - 50, 55, 65 og 90 - 65. Uten utliggeren 90 er imidlertid gjennomsnittet omtrent 57.