Samband mellan slajm och maskrosor

Så är det äntligen fredag igen. Och som vi har längtat till att få läsa lite om linjär regression. Just det, det är statistik igen (som utlovat)! Denna gång kommer vi återvända till farmaren Frans och hans slajmfarm. Han vill veta om det finns något samband mellan maskrosor och hur mycket slajm som slajmklumparna producerar.

Frans ringer sifferkunniga Samantha igen. Nu börjar det bli ganska många gånger som han har ringt så Sam börjar fundera på att ta ut en avgift. Men hon kommer inte långt i dem tankarna. När hon föra höra regression komma på tal släpper hon allt. Pannkakor kan hon göra sen!

De ägnar nu en dag åt att noggrant mäta den mängd maskrosor som respektive slajmklump äter under dagen, samt väga den slajm de producerar. Det är ganska mycket jobb men de väljer slumpvis 50 slajmklumpar från populationen som ska få delta i denna studie. Allt skrivs ned i ett protokoll.

Efter en lång dag på ranchen tillsammans med Frans så kan Sam äntligen pusta ut. Vid Frans köksbord tar Sam fram sin dator och startar sitt statistikprogram. Hon matar in alla siffror från protokollet i två kolumner; en för mängden maskrosor och en för mängden slajm.

Med alla siffrorna på plats tar hon och ritar upp dem på en graf. I x-led har hon mängden maskrosor och i y-led har hon mängden slajm. Då får hon en graf som ser ut så här:

Det verkar finnas ett förhållande som innebär att ju mer maskrosor som slajmklumparna konsumerat desto mer slajm har de producerat. Hur bra funkar maskrosätande som förklaringsfaktor?

Till sin hjälp har Sam något som kallas korrelationskoefficienten (r). Den visar om det finns något linjärt samband mellan två variabler och riktningen på sambandet. Den kan anta ett värde mellan -1 och 1. Om r är 0 så finns inget linjärt samband, men desto närmare 1 desto bättre stigande linjärt samband. Vice versa för -1 men då fallande samband. Om r hade varit -1 i grafen ovan så hade alla prickarna placerat sig på en linje som lutade nedåt. Genom lite läckra beräkningar där hon i princip summerar faktorer av standardiserade skillnader för varje punkt från respektive medelvärden och dividerar med antalet punkter (minus ett)… det där lät mer komplicerat än att visa formeln:

Det är lite jobbigt att göra beräkningen för hand. Sam skulle behöva beräkna produkten för varje punkt i grafen och det är 50 stycken. Hon tar hjälp av sin dator istället och får fram att korrelationskoefficienten är 0,93. Det verkar finnas ett positivt samband mellan maskrosätande och slajm producerat och det har en ganska stark koppling. Men Sam är inte riktigt klar än. Hon vill veta hur mycket slajm man kan förvänta sig om en slajmklump äter 100g maskrosor. Så hon fortsätter med regressionsanalysen.

Sam vill få fram en modell som kan beskriva hur förhållandet egentligen ser ut. Det Sam tänker sig är att ta fram en funktion som beskriver en linje som passerar genom punkterna. Ungefär så här ska funktionen se ut: y(x)=m+kx. Och den linje som Sam ska ta fram ska ha lika stor mängd som är ovanför som under linjen. Det vill säga att avstånden från linjen för alla punkter ovanför ska vara lika stor som för de punkter som är under. Åter till Sams dator, där får hon fram följande linje:

Linjen kan beskrivas med formeln: y(x)=25,8 + 1,05x +/- 0,13. Om en slajmklump äter 100 g maskrosor kan Frans förvänta sig få ungefär 131 ml slajm från den. Finns det då några andra faktorer som påverkar? Ja, det är möjligt, men maskrosätande har en förklaringsfaktor på 86%. Det är JÄTTEMYCKET.


Statistikprogramvara

Nu börjar jag komma igång med enklare analyser av data med hjälp av programvaran Jamovi. Programvaran är gratis och community driven. Det innebär att engagerade R-utvecklare kan bidra med att utveckla olika moduler till programmet. I detta inlägg kommer jag beskriva några enkla beståndsdelar och analyser man kan göra med programmet.

Först är det bra att ha ett dataunderlag att jobba med. Jag tänkte jobba med ett exempel här från SCB:s Statistikdatabas. Ett exempel jag väljer här är import/export inom tjänstehandel:

Exempel på vilken data man kan välja att ladda ned från SCB, samt i vilket filformat.

Jag väljer att vilka variabler jag vill inkludera och laddar ned dem som en relationstabell. Det innebär att jag kan öppna upp filen och kan göra analyser i Jamovi.

Så jag öppnar upp den nedladdade filen i Jamovi och kontrollerar att variablerna har rätt datatyp. Jag har fyra variabler och tillser att respektive variabel får rätt mät-typ: export/import är nominal (alltså kategorisk), land är också nominal, år sätter jag till ordinal (då den visserligen finns på en kontinuerlig skala men i detta fall så anser jag att man inte får ut någon vettig data av att dela upp respektive år i fraktioner), och slutligen finns variabeln tjänstehandel i miljoner kronor som är kontinuerlig.

I denna initiala analys vill jag kolla på hur fördelningen mellan import och export såg ut 2017. Jag gör därför en deskriptiv analys i programmet och väljer variabeln för tjänstehandel och delar upp den på år och import/export:

Median för import respektive export 2017:

Vi hade alltså 1.054 miljarder kronor i export och 1.235 miljarder kronor i import. Detta innebär att länderna som ingår i underlaget fördelar sig 50/50 runt dessa värden för deras tjänstehandel.

Jag får återkomma när jag kan göra ännu roligare analyser!


Block 1 och lite annat

Denna vecka kommer jag avsluta första delen på den statistikkurs jag går. Jag kommer då att ha gått igenom grundläggande begrepp vad gäller undersökningsmetodik och deskription.

Ett av de grundläggande koncepten man måste ha koll på är samband. Bara för att där finns ett samband så behöver det inte betyda att en variabel orsakar ett visst utfall. Och finns ett orsakssamband så måste man ha koll på vad som orsakar ett utfall. Ett enkelt exempel på detta är att man skulle kunna se ett samband mellan glassförsäljning och soligt väder. Det är ju inte att glassförsäljningen går bra som orsakar soligt väder! Sedan kan man se att när glassförsäljning går bra är det också många som badar. Men det är inte glassförsäljning som gör att folk badar. Det råkar bara sammanfalla med att det är soligt väder. Så de korrelerar med varandra.

Jag kommer börja använda ett open-source program denna vecka för att göra statistiska analyser. Det heter Jamovi. Jag kommer använda det för att göra lite övningsuppgifter.

I helgen så har jag inte ägnat någon tid till statistik, så det blir mer av det i veckan. Nej, snarare så har jag ägnat tid till programmering, eller snarare web design. Jag har efter lite fram och tillbaka med css och visat sambon kommit fram till att jag först behöver en målbild innan jag sitter och prövar olika färger och css-funktioner. Så istället har jag suttit med Adobe XD och tagit fram ett koncept. Det tog ett tag men jag gillar färgerna och presentationen som jag fått fram.

Så när jag eventuellt får lite tid över efter bebisar och statistik så kommer jag köra lite CSS med lite grid och flex.