Hva er en minste kvadratlinje?

Lær om linjen med best passform

Lineær regresjon

Sewaqu/Wikimedia Commons/​Public Domain





Et spredningsdiagram er en type graf som brukes til å representereDet mest grunnleggende mønsteret å se etter i et sett med sammenkoblede data er en rett linje. Gjennom to punkter kan vi tegne en rett linje. Hvis det er mer enn to punkter i spredningsplottet vårt, vil vi for det meste ikke lenger kunne tegne en linje som går gjennom hvert punkt. I stedet vil vi tegne en linje som går gjennom midten av punktene og viser den generelle lineære trenden til dataene.

Når vi ser på punktene i grafen vår og ønsker å trekke en linje gjennom disse punktene, dukker det opp et spørsmål. Hvilken linje skal vi trekke? Det er et uendelig antall linjer som kan tegnes. Ved å bruke øynene våre alene, er det klart at hver person som ser på spredningsdiagrammet kan produsere en litt annen linje. Denne tvetydigheten er et problem. Vi ønsker å ha en veldefinert måte for alle å oppnå samme linje. Målet er å ha en matematisk presis beskrivelse av hvilken linje som skal trekkes. De minste rutene regresjonslinjeer en slik linje gjennom datapunktene våre.



Minste kvadrater

Navnet på minste kvadraters linje forklarer hva den gjør. Vi starter med en samling av punkter med koordinater gitt av ( xJeg , YJeg ). Enhver rett linje vil passere mellom disse punktene og vil enten gå over eller under hvert av disse. Vi kan beregne avstandene fra disse punktene til linjen ved å velge en verdi på x og deretter trekke fra det observerte Y koordinat som tilsvarer dette x fra Y koordinaten til vår linje.

Ulike linjer gjennom samme sett med punkter vil gi et annet sett med avstander. Vi ønsker at disse avstandene skal være så små som vi kan gjøre dem. Men det er et problem. Siden våre avstander kan være enten positive eller negative, vil summen av alle disse avstandene oppheve hverandre. Summen av avstander vil alltid være lik null.



Løsningen på dette problemet er å eliminere alle de negative tallene ved å kvadrere avstandene mellom punktene og linjen. Dette gir en samling av ikke-negative tall. Målet vi hadde med å finne en linje som passer best er det samme som å gjøre summen av disse kvadratiske avstandene så liten som mulig. Calculus kommer til unnsetning her. Prosessen med differensiering i kalkulus gjør det mulig å minimere summen av kvadrerte avstander fra en gitt linje. Dette forklarer frasen minste kvadrater i navnet vårt for denne linjen.

Line of Best Fit

Siden minste kvadrater-linjen minimerer de kvadratiske avstandene mellom linjen og punktene våre, kan vi tenke på denne linjen som den som passer best til våre data. Dette er grunnen til at linjen med minste kvadrater også er kjent som linjen med best passform. Av alle mulige linjer som kan tegnes, er minste kvadraters linje nærmest datasettet som helhet. Dette kan bety at linjen vår vil gå glipp av å treffe noen av punktene i datasettet vårt.

Funksjoner ved Least Squares Line

Det er noen få funksjoner som hver minste kvadratlinje har. Det første elementet av interesse omhandler helningen på linjen vår. Skråningen har tilknytning til korrelasjonskoeffisient av våre data. Faktisk er helningen på linjen lik r(sY/sx) . Her sx angir standardavviket til x koordinater og sY standardavviket til Y koordinater av våre data. Tegnet på korrelasjonskoeffisienten er direkte relatert til tegnet på helningen til vår minste kvadraters linje.

Et annet trekk ved minste kvadraters linje gjelder et punkt som den går gjennom. Mens Y avskjæring av en minste kvadraters linje er kanskje ikke interessant fra et statistisk synspunkt, det er ett punkt som er. Hver minste kvadraters linje går gjennom midtpunktet av dataene. Dette midtpunktet har en x koordinere som er mener av x verdier og en Y koordinat som er gjennomsnittet av Y verdier.