Blog

Standardiserad fredag

Idag ska jag låta avsluta den ”normala veckan” med standardiserade värden. Vad är ett standardiserat värde? Vad är egentligen poängen med att standardisera värden? Hur standardiserar man värden? Detta kommer jag gå igenom idag.

Ett standardiserat värde är egentligen ett mått på hur långt ifrån ett medelvärde en datapunkt är. Som mått används standardavvikelsen. Det standardiserade värdet representeras av z. Och som jag skrev om förra gången så representeras standardavvikelsen av σ [lilla sigma]. I bilden nedan så har jag ritat in σ och ett standardiserat värde med 1,25.

Vad är då poängen med standardiserade värden? Vad jag vet i skrivande stund så finns det två poänger.

För det första så kan man jämföra olika standardiserade mått med varandra. Som jag har fått förklarat för mig så har man i USA två stora antagningsprov till högre studier: ACT och SAT. De har olika skalor men kan vara angelägna att jämföra mellan. Säg att Emily har fått 650 på SAT-provet, och Michael har fått 28 på ACT. Vem av dem har större anspråk på att komma in på samma kurs om man kan anta att ACT och SAT är likvärdiga test på kunskapsnivå. Genom att standardisera värdena så får jag fram att Emilys z-värde är 1 och Michael är 1,67. Michael har alltså högre poäng om man skulle jämföra dem. Vad det innebär är att en mindre andel av alla som skriver proven har fått så höga poäng som Michael jämfört med Emily. Men det innebär inte att Emily har dåliga poäng. Faktum är att hon har bättre poäng än 84% av alla som tar samma prov. Och då kommer vi till den andra poängen.

För det andra så kan man med hjälp av standardiserade värden av en normalfördelning få fram andelar av en population.

Det är svårt att använda ögonmått för att uppskatta andel av befolkningen som har lägre poäng än Emily. Men med hjälp av z-värde och en tabell över standardiserad normal sannolikhet så kan man få fram andelen. Om man skulle kontrollera hur stor andel av befolkningen som fått poäng som varit mindre än det standardiserade värdet av 0, så kan man se att det delar befolkningen i hälften.

Det om standardiserade värden!

Jag vill också nämna något om Bokarenan. Projektet har löpt på när jag inte orkat läsa kursboken och tid funnits över. Jag har inte gillat hur svårt det varit för mig att navigera mellan relevanta Controllers och views. Jag har heller inte gillat att jag låtit skapa så många views för varje liten entitet. Det kan finnas poänger för det när man vill underhålla vilka entiteter man har. Men jag tycker att det mest har tagit upp massa plats och inte haft någon rimlig logik till sig. Jag har därför tänkt ta bort dem som inte används, och när jag upptäcker att jag behöver dem så skapar jag dem efter mina behov.

Ytterligare så har jag förfinat layouten, men det har jag skrivit lite om tidigare. Men alla dessa åtgärder har inneburit att ganska mycket kod har flyttats runt. Jag tog en liten bild av hur många förändringar det inneburit i Git:

Och till sist vill jag avsluta med lite fredagskänsla: spel! Den gångna veckan har min dotter upptäckt glädjen med att skjuta upp raketer i Kerbal Space Program, och så har också jag. Jag kommer sitta och bygga små dynamitstycken och hoppas att mina små gröna gubbar kan landa säkert någonstans. Jag har lyckats få mina explosioner att smälla i ungefär rätt riktningar, men ännu så har jag inte lyckats flyga ett varv runt planeten. Vi får se vem som först lyckas; jag eller dottern.

Trevlig helg, allihopa!


Normalfördelning

Som jag skrev om i måndags så skulle jag återkomma till en särskild form av symmetriska kurvor, nämligen normalkurvorna. Några grundläggande egenskaper med normalkurvorna är att de är symmetriska, klockformade och har bara en topp. Vi har då en enkel beskrivning av en normalfördelning. I mitten av normalkurvan är medelvärdet. Den representeras av μ. Dessutom kan man faktiskt se standardavvikelsen. Den kan man få genom att titta var normalkurvan är som brantast och ta avståndet från µ till den punkten på x-axeln. Standardavvikelsen representeras av σ. I bilden nedan så är en skiss på en normalkurva med både medelvärde och standardavvikelse markerade.

För en normalfördelning så kommer toppen alltid att vara där medelvärdet är. Förändring av medelvärdet innebär att normalkurvan flyttar med den förändringen längs x-axeln. Om standardavvikelsen förändras så kommer bredden av kurvan förändras. En lägre standardavvikelse innebär en smalare kurva. På bilden nedan har jag skissat hur det kan se ut.

Så vad är det då som är så bra med normalkurvor? För det första är det en beskrivning på en ganska vanligt förekommande fördelning ute i det vilda. För det andra så beskriver det ganska bra ett antal olika slumpmässiga utfall.

En intressant egenhet med normalkurvor är att inom 1σ från µ så finns 68% av alla observationer. Vid 2 och 3σ från µ så finns 95% respektive 99,7% av alla observationer. Vad dessa förhållanden innebär för något som kallas standardiserade värden kommer jag avsluta veckan med. Vi ses då!


En normal vecka

Efter förra veckan så är jag nu klar med första delen av statistikkursen. Det innebär att jag denna veckan går från enklare diagram till att beskriva täthetskurvor och normalfördelning.

Täthetskurvor (eller density curves på engelska) är en idealiserad bild av en fördelning. Tänk er ett histogram och om man tar och ritar en kurva ungefär där varje stapel slutar. Det ger en fin kurva som enkelt beskriver formen på fördelningen. Det man får på köpet är färre detaljer; små skillnader kan bortses och även outliers kan hamna utanför. Med täthetskurvan kan man också uppskatta medianen, och till viss del även medelvärdet. Här nedan kommer ett första exempel:

I denna första fördelning så är den symmetrisk. Vi får då både median och medelvärde i mitten av kurvan. Om man betraktar ytan under kurvan så är arean lika stor till vänster som höger om medianen. Om fördelningen är asymmetrisk så får vi inte medianen och medelvärdet vid samma punkt. I bilden nedan är fördelningen högerskev:

Eftersom fördelningen har extrema värden åt höger så får vi ett medelvärde som är högre än medianen. Fortfarande gäller dock att medianen delar ytan under kurvan i två lika stora areor. Medelvärdet kan ses som den punkt som hela ytan, om det vore ett fast objekt, skulle balansera på.

När en fördelning är som i första exemplet – symmetriskt och formad som en klocka – då har det ett särskilt namn: normalfördelning. Vad det som är så speciellt med det återkommer jag till på onsdag.

Nu får vi se fram emot en normal vecka!


Dubbla saker hälften så snabbt

Denna veckan har jag fortsatt med statistik och programmering. Det blir alltså dubbelt upp mot vad jag gör i vanliga fall. Men det har inneburit att det gått lite långsammare på båda hållen.

I helgen kommer jag göra klart den första delen av statistikkursen. Det innebär att jag gör en liten quiz om de huvudsakliga beståndsdelarna i en statistisk undersökning.

Så länge jag inte hoppar över viktiga delar eller ger upp så kan jag bara fortsätta öka mina kunskaper. Det är som med programmeringen. Jag tror att det är sunt (för det är ju roligt också) att jag fortsätter med den när jag har lite tid över. Om jag kan slutföra den initiala och levererbara delen av Bokarenan så kan jag fortsätta lägga till funktioner till den, där ibland hoppas jag kunna göra lite statistiska analyser av underlaget. Till exempel så skulle det vara lite intressant kuriosa att se vilka ord som är vanliga för att beskriva thrillers jämfört med romantikromaner.

Så denna helg kommer jag jonglera begrepp så som normalfördelning, obundet slumpmässig urval, kvartiler, median, standardavvikelse, outlier, lådagram, statistiskt signifikant, och så vidare.

Denna helg kommer jag även ägna No Man’s Sky lite uppmärksamhet. Det är ganska mysigt, men jag vet inte hur mycket längre jag kommer hinna i spelet. Jag har hunnit komma till en anomali och träffat på andra spelare där. Hux flux så började en spelare ge mig en massa saker. Det bara dök upp bland min packning. Och det visade sig vara värt ungefär 20ggr av vad jag hade tjänat så långt. Så det var väldigt roligt att få den extra skjutsen just som jag höll på att visa systersonen vad spelet gick ut på. Men ikväll har jag lovat min äldsta dotter att vi ska skjuta upp lite raketer i spelet Kerbal Space Program. Vi får se om vi lyckas lämna atmosfären.

Trevlig helg, allihopa!


Statistikprogramvara

Nu börjar jag komma igång med enklare analyser av data med hjälp av programvaran Jamovi. Programvaran är gratis och community driven. Det innebär att engagerade R-utvecklare kan bidra med att utveckla olika moduler till programmet. I detta inlägg kommer jag beskriva några enkla beståndsdelar och analyser man kan göra med programmet.

Först är det bra att ha ett dataunderlag att jobba med. Jag tänkte jobba med ett exempel här från SCB:s Statistikdatabas. Ett exempel jag väljer här är import/export inom tjänstehandel:

Exempel på vilken data man kan välja att ladda ned från SCB, samt i vilket filformat.

Jag väljer att vilka variabler jag vill inkludera och laddar ned dem som en relationstabell. Det innebär att jag kan öppna upp filen och kan göra analyser i Jamovi.

Så jag öppnar upp den nedladdade filen i Jamovi och kontrollerar att variablerna har rätt datatyp. Jag har fyra variabler och tillser att respektive variabel får rätt mät-typ: export/import är nominal (alltså kategorisk), land är också nominal, år sätter jag till ordinal (då den visserligen finns på en kontinuerlig skala men i detta fall så anser jag att man inte får ut någon vettig data av att dela upp respektive år i fraktioner), och slutligen finns variabeln tjänstehandel i miljoner kronor som är kontinuerlig.

I denna initiala analys vill jag kolla på hur fördelningen mellan import och export såg ut 2017. Jag gör därför en deskriptiv analys i programmet och väljer variabeln för tjänstehandel och delar upp den på år och import/export:

Median för import respektive export 2017:

Vi hade alltså 1.054 miljarder kronor i export och 1.235 miljarder kronor i import. Detta innebär att länderna som ingår i underlaget fördelar sig 50/50 runt dessa värden för deras tjänstehandel.

Jag får återkomma när jag kan göra ännu roligare analyser!


Block 1 och lite annat

Denna vecka kommer jag avsluta första delen på den statistikkurs jag går. Jag kommer då att ha gått igenom grundläggande begrepp vad gäller undersökningsmetodik och deskription.

Ett av de grundläggande koncepten man måste ha koll på är samband. Bara för att där finns ett samband så behöver det inte betyda att en variabel orsakar ett visst utfall. Och finns ett orsakssamband så måste man ha koll på vad som orsakar ett utfall. Ett enkelt exempel på detta är att man skulle kunna se ett samband mellan glassförsäljning och soligt väder. Det är ju inte att glassförsäljningen går bra som orsakar soligt väder! Sedan kan man se att när glassförsäljning går bra är det också många som badar. Men det är inte glassförsäljning som gör att folk badar. Det råkar bara sammanfalla med att det är soligt väder. Så de korrelerar med varandra.

Jag kommer börja använda ett open-source program denna vecka för att göra statistiska analyser. Det heter Jamovi. Jag kommer använda det för att göra lite övningsuppgifter.

I helgen så har jag inte ägnat någon tid till statistik, så det blir mer av det i veckan. Nej, snarare så har jag ägnat tid till programmering, eller snarare web design. Jag har efter lite fram och tillbaka med css och visat sambon kommit fram till att jag först behöver en målbild innan jag sitter och prövar olika färger och css-funktioner. Så istället har jag suttit med Adobe XD och tagit fram ett koncept. Det tog ett tag men jag gillar färgerna och presentationen som jag fått fram.

Så när jag eventuellt får lite tid över efter bebisar och statistik så kommer jag köra lite CSS med lite grid och flex.


Beskriva en fördelning

Det finns fem enkla värden som på ett enkelt och ofta rättvist sätt kan beskriva hur data fördelas bland en population. Här kommer dem: minimum, Q1, M, Q2, och maximum.

Minimum anger den lägsta datapunkten i hela underlaget. I bland kan vissa outliers exkluderas, då anger minimum det lägsta värdet för underlaget som inte har sorterats bort.

Q1, M och Q3 är olika punkter för andel av befolkningen som uppnått ett visst värde. M är känd som medianen och anger den punkt i ett storleksordnat underlag där hälften av dataunderlaget sorteras under den, och hälften sorteras över den. Den undre hälften kan på motsvarande sätt delas ytterligare i hälften vid den punkt som benämns Q1, vilket då utgör första kvartilen. Vice versa gäller för den övre hälften från medianen, vilket benämns Q3.

Sedan har vi maximum som anger den högsta datapunkten i hela underlaget, bortsett från eventuella outliers. I figuren nedan samlas alla fem punkterna i ett boxdiagram. Vi kan föreställa oss att figuren är ett exempel på längdfördelningen bland alla aktiva fotbollsspelare i fantasi fotboll. Kortaste spelaren är en älva på 10 cm. Längsta spelaren är en ork på 280 cm. Vi har en medianlängd runt 160 cm. Det verkar som att 50% av spelare har en längd mellan 140 – 190 cm.

Det finns få mått som på ett bättre sätt kan beskriva en fördelning bättre än dessa fem. Om man skulle ha något emot median, så kan man använda medelvärdet. Men medelvärdet är inte så motståndskraftigt när det kommer till extrema värden. På samma sätt gäller det för standard deviation som mått på fördelning, eller hur mycket i snitt värden skiljer sig från medelvärdet.

Detta var kort om att beskriva datafördelning. Nu är det fredag och åter helg! Denna helg kommer jag sätta mig ned lite med No Man’s Sky. Initiala intrycket säger mig att det är en färgglad presentation av rymdutforskning som kommer med en hel del av slöjd och skaparmöjligheter. Jag har spelat Elite: Dangerous en del under hösten, men detta ger en något lättare och kanske mer varierad upplevelse.


Statistikens grundläggande steg

Statistik är ett förenklat sätt att beskriva verkligheten. Men ibland (och ganska ofta) är statistik det enda som kan ge en uppfattning om sakers tillstånd. Statistik omfattar metoder för att samla in data samt bearbeta och analysera det. I detta inlägg tänkte jag beskriva statistiska metoder övergripligt utifrån de grundläggande stegen.

Innan någon statistisk undersökning påbörjas måste först ett problem identifieras. Jag skriver problem men menar egentligen något som innebär en kunskapslucka. Det är en frågeställning som för närvarande inte har fått något svar. Om frågeställningen är av sådan karaktär att statistiska metoder är tillämpliga kan nästa steg tas. Exempel på ett sådant problem är: ”Hur stor är arbetslösheten i Stockholm?”.

Vilka objekt är det som undersöks och hur kan man precisera dem? Här är det arbetslöshet som ska studeras, så det begreppet behöver operationaliseras. SCB operationaliserar begreppet enligt följande: ”en person som är utan arbete, kan ta ett arbete och aktivt sökt arbete eller som avvaktar ett arbete som börjar inom tre månader” (SCB, 2019). Detta ger oss ytterligare två begrepp att förhålla oss till; variabler och population. En variabel är en egenskap som undersöks. Genom operationaliseringen av det objekt som vi hade som exempel så fick vi fram ”person utan arbete”, detta kan vi beteckna som en variabel. Population utgör den tänkta målgrupp som studeras. I exemplet har vi ”arbetslöshet i Stockholm”. Det innebär att populationen är boende i Stockholm. Men även detta kan preciseras ytterligare; det skulle kunna vara personer från 18 år och uppåt som är folkbokförda i Stockholms län. Det är en ganska stor population så i nästa steg behöver vi fundera på om det är hanterbart att inkludera alla i studien eller om vi kan göra ett urval.

Svaret är att vi i exemplet behöver göra ett urval. Urvalet kan med fördel göras som ett obundet slumpmässigt urval. Det innebär att man drar slumpmässigt ett visst antal personer ur ett register, det som utgör ramen för undersökningen. När personerna dras har alla personer i registret lika hög sannolikhet att dras som vem som helst annars i samma register. Hur många personer som ska ingå i urvalet beror på population och vilken signifikansnivå man vill ha. Det går jag inte in på här utan det får jag återkomma till.

Stratifierat urval. Population delas in i grupper och urval görs ur varje grupp.
Exempel på en typ av urval: stratifierat urval.

Nästa steg innebär datainsamling. Vilken metod ska man använda för att få in svar? Det kan vara enkätundersökning eller intervjuer; på internet, över epost, brev eller telefon. Oavsett metod så finns olika typer av fallgropar man får se upp för och redovisa. En bra statistisk undersökning ska förhålla sig sakligt till den valda metoden.

Sedan kommer några steg, som jag bara kommer nämna här och återkomma till i senare inlägg. Det är databearbetning, vilket omfattar granskning och kodning av dataunderlaget följt av registrering. Dataunderlaget sammanställs sedan i tabeller. Därefter kommer analys och slutsats följt av publicering av den statistiska undersökningen. Detta är några viktiga steg, som jag ännu inte kommit till i min kurs. Så, på återseende kära databearbetning och analys!

Källa
SCB (2019). Arbetslös – inte samma sak hos SCB och Arbetsförmedlingen. Statistiska centralbyrån: www.scb.se [hämtat 2019-11-04]


Histogram vs stapeldiagram

Som jag varit inne på tidigare så kan man i stort dela in data i två kategorier: kategoriska (kvalitativa) och kvantitativa. Kvalitativ data kan man dela in i två underkategorier; de som kan delas in i storleksordning och de som inte kan det. Det vill säga nominal och ordinal data. Sedan har vi kvantitativ data som kan delas in i intervallskala och kvotskala. Intervallskala är likt ordinal data men den har egenskapen ekvidistans, så det går att avgöra hur långt det är mellan två punkter på skalan. Kvotskalan har ytterligare egenskap att det går att avgöra hur mycket större ett värde är än ett annat, så som att det kan vara dubbelt så stort/varmt/högt/med mera.

Histogram är ett bra verktyg att använda när man jobbar med kvantitativ data och vill förenkla data så det blir meningsfullt att visualisera. Det kan vara att presentera längd på alla som spelar fotboll i allsvenskan. Man skapar då intervall som är lika stora och presenterar dem i ett histogram.

Exempel på ett histogram

Detta påminner om hur stapeldiagram ser ut, men de har olika användningsområden. Stapeldiagram visualiserar hur nominal data kan fördelas. Här kommer ett exempel på vilket husdjur en klass skolelever skulle välja:

Exempel på stapeldiagram med katt, hund och kanin.

Ovanstående exempel hade även kunnat representeras som andelar i ett cirkeldiagram.

Denna vecka fortsätter jag med statistik, och jag kommer gå igenom hur en statistisk undersökning går till: från problemformulering till slutsats.

Slutligen måste jag medge att det funnits tillfällen då jag återgått till min programmering. Jag har börjat justera presentationen av Bokarenan med hjälp av CSS Grid. Det har varit enklare att programmera i 20 minuter än att plugga när jag är trött. Vi får se om det blir ytterligare programmering gjort denna veckan.


Vad en tabell är

Så inledningsvis är statistik-kursen ganska enkel. Jag har börjat läsa i kurslitteraturen och den kommer med många exempel och övningar. Tyvärr tycker jag boken inte är tillräckligt tydlig med när den går över till exempel. Första avsnittet bestod till nästan 40% av exempel och 10% av övningar. 50% var alltså det huvudsakliga kunskapsbidraget som boken erbjöd. Men det behöver inte vara negativt i sig, och är dessutom antagligen förbehållet de inledande avsnitten.

Ett av de koncepten som introducerades inledningsvis var vad en tabell är. Jag vet vad en tabell är, så det avsnittet hade jag kunnat bara överblicka. Det är något som jag får bli bättre på. Har man, som jag, jobbat mot databaser; då vet man vad en tabell är.

Utöver tabeller så har jag tagit del av vilka olika typer av data det finns. I huvudsak är det om dataunderlaget är kategoriskt eller kvantitativt. Det vill säga om det beskriver till exempel yrke eller lön. Härnäst så ska jag läsa vidare om grafisk presentation av statistik.

Så går vi över till helg. I nöjesväg så fick jag inte ut mycket ut av spelet Hellblade: Senua’s sacrifice. Det var alldeles för deppigt och påfrestande för mig. Jag går istället över (och tillbaka) till Horizon: Zero Dawn. Jag slipar på tekniken att fälla Frostclaws.

Trevlig helg, allihopa!