Innhold
- Lineær regresjon er begrenset til lineære forhold
- Lineær regresjon Ser bare på gjennomsnittet av den avhengige variabelen
- Lineær regresjon er følsom for utskyttere
- Data må være uavhengige
Lineær regresjon er en statistisk metode for å undersøke forholdet mellom en avhengig variabel, betegnet som y, og en eller flere uavhengige variabler, betegnet som x. Den avhengige variabelen må være kontinuerlig, ved at den kan ta på seg hvilken som helst verdi, eller i det minste nær kontinuerlig. De uavhengige variablene kan være av hvilken som helst type. Selv om lineær regresjon ikke kan vise årsakssammenheng av seg selv, påvirkes den avhengige variabelen vanligvis av de uavhengige variablene.
Lineær regresjon er begrenset til lineære forhold
I sin natur ser lineær regresjon bare på lineære forhold mellom avhengige og uavhengige variabler. Det vil si at det forutsetter at det er en rett linje forhold mellom dem. Noen ganger er dette feil. For eksempel er forholdet mellom inntekt og alder buet, det vil si at inntektene har en tendens til å stige i de tidlige delene av voksenlivet, flate ut i senere voksen alder og avta etter at folk går av med pensjon. Du kan se om dette er et problem ved å se på grafiske fremstillinger av forholdene.
Lineær regresjon Ser bare på gjennomsnittet av den avhengige variabelen
Lineær regresjon ser på en sammenheng mellom gjennomsnittet av den avhengige variabelen og de uavhengige variablene. Hvis du for eksempel ser på forholdet mellom fødselsvekten til spedbarn og mors egenskaper som alder, vil lineær regresjon se på gjennomsnittsvekten til babyer født til mødre i forskjellige aldre. Noen ganger må du imidlertid se på ytterpunktene til den avhengige variabelen, for eksempel er babyer i fare når vekten er lav, så du vil se på ytterpunktene i dette eksemplet.
Akkurat som middelverdien ikke er en fullstendig beskrivelse av en enkelt variabel, er lineær regresjon ikke en fullstendig beskrivelse av sammenhenger mellom variabler. Du kan takle dette problemet ved å bruke kvantregresjon.
Lineær regresjon er følsom for utskyttere
Outliers er data som er overraskende. Outliers kan være univariate (basert på en variabel) eller multivariate. Hvis du ser på alder og inntekt, vil univariate outliers være ting som en person som er 118 år gammel, eller en som tjente 12 millioner dollar i fjor. En multivariat-outlier ville være en 18-åring som tjente 200 000 dollar. I dette tilfellet er verken alder eller inntekt veldig ekstrem, men veldig få 18-årige tjener så mye penger.
Outliers kan ha enorme effekter på regresjonen. Du kan håndtere dette problemet ved å be om innflytelsesstatistikk fra din statistiske programvare.
Data må være uavhengige
Lineær regresjon forutsetter at dataene er uavhengige. Det betyr at poengsummen til ett fag (for eksempel en person) ikke har noe å gjøre med resultatene til et annet. Dette er ofte, men ikke alltid, fornuftig. To vanlige tilfeller der det ikke er fornuftig, er gruppering i rom og tid.
Et klassisk eksempel på gruppering i verdensrommet er elevtestpoeng, når du har elever fra forskjellige klasser, karakterer, skoler og skoledistrikter. Elever i samme klasse har en tendens til å være like på mange måter, det vil si at de ofte kommer fra de samme nabolagene, de har de samme lærerne, osv. Dermed er de ikke uavhengige.
Eksempler på gruppering i tid er studier hvor du måler de samme fagene flere ganger. I en studie av kosthold og vekt kan du for eksempel måle hver person flere ganger. Disse dataene er ikke uavhengige fordi det en person veier ved en anledning er relatert til det han eller hun veier ved andre anledninger. En måte å takle dette på er med flernivåmodeller.