Samband mellan slajm och maskrosor

Så är det äntligen fredag igen. Och som vi har längtat till att få läsa lite om linjär regression. Just det, det är statistik igen (som utlovat)! Denna gång kommer vi återvända till farmaren Frans och hans slajmfarm. Han vill veta om det finns något samband mellan maskrosor och hur mycket slajm som slajmklumparna producerar.

Frans ringer sifferkunniga Samantha igen. Nu börjar det bli ganska många gånger som han har ringt så Sam börjar fundera på att ta ut en avgift. Men hon kommer inte långt i dem tankarna. När hon föra höra regression komma på tal släpper hon allt. Pannkakor kan hon göra sen!

De ägnar nu en dag åt att noggrant mäta den mängd maskrosor som respektive slajmklump äter under dagen, samt väga den slajm de producerar. Det är ganska mycket jobb men de väljer slumpvis 50 slajmklumpar från populationen som ska få delta i denna studie. Allt skrivs ned i ett protokoll.

Efter en lång dag på ranchen tillsammans med Frans så kan Sam äntligen pusta ut. Vid Frans köksbord tar Sam fram sin dator och startar sitt statistikprogram. Hon matar in alla siffror från protokollet i två kolumner; en för mängden maskrosor och en för mängden slajm.

Med alla siffrorna på plats tar hon och ritar upp dem på en graf. I x-led har hon mängden maskrosor och i y-led har hon mängden slajm. Då får hon en graf som ser ut så här:

Det verkar finnas ett förhållande som innebär att ju mer maskrosor som slajmklumparna konsumerat desto mer slajm har de producerat. Hur bra funkar maskrosätande som förklaringsfaktor?

Till sin hjälp har Sam något som kallas korrelationskoefficienten (r). Den visar om det finns något linjärt samband mellan två variabler och riktningen på sambandet. Den kan anta ett värde mellan -1 och 1. Om r är 0 så finns inget linjärt samband, men desto närmare 1 desto bättre stigande linjärt samband. Vice versa för -1 men då fallande samband. Om r hade varit -1 i grafen ovan så hade alla prickarna placerat sig på en linje som lutade nedåt. Genom lite läckra beräkningar där hon i princip summerar faktorer av standardiserade skillnader för varje punkt från respektive medelvärden och dividerar med antalet punkter (minus ett)… det där lät mer komplicerat än att visa formeln:

Det är lite jobbigt att göra beräkningen för hand. Sam skulle behöva beräkna produkten för varje punkt i grafen och det är 50 stycken. Hon tar hjälp av sin dator istället och får fram att korrelationskoefficienten är 0,93. Det verkar finnas ett positivt samband mellan maskrosätande och slajm producerat och det har en ganska stark koppling. Men Sam är inte riktigt klar än. Hon vill veta hur mycket slajm man kan förvänta sig om en slajmklump äter 100g maskrosor. Så hon fortsätter med regressionsanalysen.

Sam vill få fram en modell som kan beskriva hur förhållandet egentligen ser ut. Det Sam tänker sig är att ta fram en funktion som beskriver en linje som passerar genom punkterna. Ungefär så här ska funktionen se ut: y(x)=m+kx. Och den linje som Sam ska ta fram ska ha lika stor mängd som är ovanför som under linjen. Det vill säga att avstånden från linjen för alla punkter ovanför ska vara lika stor som för de punkter som är under. Åter till Sams dator, där får hon fram följande linje:

Linjen kan beskrivas med formeln: y(x)=25,8 + 1,05x +/- 0,13. Om en slajmklump äter 100 g maskrosor kan Frans förvänta sig få ungefär 131 ml slajm från den. Finns det då några andra faktorer som påverkar? Ja, det är möjligt, men maskrosätande har en förklaringsfaktor på 86%. Det är JÄTTEMYCKET.