Etikett normalfördelning

Standardiserad fredag

Idag ska jag låta avsluta den ”normala veckan” med standardiserade värden. Vad är ett standardiserat värde? Vad är egentligen poängen med att standardisera värden? Hur standardiserar man värden? Detta kommer jag gå igenom idag.

Ett standardiserat värde är egentligen ett mått på hur långt ifrån ett medelvärde en datapunkt är. Som mått används standardavvikelsen. Det standardiserade värdet representeras av z. Och som jag skrev om förra gången så representeras standardavvikelsen av σ [lilla sigma]. I bilden nedan så har jag ritat in σ och ett standardiserat värde med 1,25.

Vad är då poängen med standardiserade värden? Vad jag vet i skrivande stund så finns det två poänger.

För det första så kan man jämföra olika standardiserade mått med varandra. Som jag har fått förklarat för mig så har man i USA två stora antagningsprov till högre studier: ACT och SAT. De har olika skalor men kan vara angelägna att jämföra mellan. Säg att Emily har fått 650 på SAT-provet, och Michael har fått 28 på ACT. Vem av dem har större anspråk på att komma in på samma kurs om man kan anta att ACT och SAT är likvärdiga test på kunskapsnivå. Genom att standardisera värdena så får jag fram att Emilys z-värde är 1 och Michael är 1,67. Michael har alltså högre poäng om man skulle jämföra dem. Vad det innebär är att en mindre andel av alla som skriver proven har fått så höga poäng som Michael jämfört med Emily. Men det innebär inte att Emily har dåliga poäng. Faktum är att hon har bättre poäng än 84% av alla som tar samma prov. Och då kommer vi till den andra poängen.

För det andra så kan man med hjälp av standardiserade värden av en normalfördelning få fram andelar av en population.

Det är svårt att använda ögonmått för att uppskatta andel av befolkningen som har lägre poäng än Emily. Men med hjälp av z-värde och en tabell över standardiserad normal sannolikhet så kan man få fram andelen. Om man skulle kontrollera hur stor andel av befolkningen som fått poäng som varit mindre än det standardiserade värdet av 0, så kan man se att det delar befolkningen i hälften.

Det om standardiserade värden!

Jag vill också nämna något om Bokarenan. Projektet har löpt på när jag inte orkat läsa kursboken och tid funnits över. Jag har inte gillat hur svårt det varit för mig att navigera mellan relevanta Controllers och views. Jag har heller inte gillat att jag låtit skapa så många views för varje liten entitet. Det kan finnas poänger för det när man vill underhålla vilka entiteter man har. Men jag tycker att det mest har tagit upp massa plats och inte haft någon rimlig logik till sig. Jag har därför tänkt ta bort dem som inte används, och när jag upptäcker att jag behöver dem så skapar jag dem efter mina behov.

Ytterligare så har jag förfinat layouten, men det har jag skrivit lite om tidigare. Men alla dessa åtgärder har inneburit att ganska mycket kod har flyttats runt. Jag tog en liten bild av hur många förändringar det inneburit i Git:

Och till sist vill jag avsluta med lite fredagskänsla: spel! Den gångna veckan har min dotter upptäckt glädjen med att skjuta upp raketer i Kerbal Space Program, och så har också jag. Jag kommer sitta och bygga små dynamitstycken och hoppas att mina små gröna gubbar kan landa säkert någonstans. Jag har lyckats få mina explosioner att smälla i ungefär rätt riktningar, men ännu så har jag inte lyckats flyga ett varv runt planeten. Vi får se vem som först lyckas; jag eller dottern.

Trevlig helg, allihopa!


Normalfördelning

Som jag skrev om i måndags så skulle jag återkomma till en särskild form av symmetriska kurvor, nämligen normalkurvorna. Några grundläggande egenskaper med normalkurvorna är att de är symmetriska, klockformade och har bara en topp. Vi har då en enkel beskrivning av en normalfördelning. I mitten av normalkurvan är medelvärdet. Den representeras av μ. Dessutom kan man faktiskt se standardavvikelsen. Den kan man få genom att titta var normalkurvan är som brantast och ta avståndet från µ till den punkten på x-axeln. Standardavvikelsen representeras av σ. I bilden nedan så är en skiss på en normalkurva med både medelvärde och standardavvikelse markerade.

För en normalfördelning så kommer toppen alltid att vara där medelvärdet är. Förändring av medelvärdet innebär att normalkurvan flyttar med den förändringen längs x-axeln. Om standardavvikelsen förändras så kommer bredden av kurvan förändras. En lägre standardavvikelse innebär en smalare kurva. På bilden nedan har jag skissat hur det kan se ut.

Så vad är det då som är så bra med normalkurvor? För det första är det en beskrivning på en ganska vanligt förekommande fördelning ute i det vilda. För det andra så beskriver det ganska bra ett antal olika slumpmässiga utfall.

En intressant egenhet med normalkurvor är att inom 1σ från µ så finns 68% av alla observationer. Vid 2 och 3σ från µ så finns 95% respektive 99,7% av alla observationer. Vad dessa förhållanden innebär för något som kallas standardiserade värden kommer jag avsluta veckan med. Vi ses då!


En normal vecka

Efter förra veckan så är jag nu klar med första delen av statistikkursen. Det innebär att jag denna veckan går från enklare diagram till att beskriva täthetskurvor och normalfördelning.

Täthetskurvor (eller density curves på engelska) är en idealiserad bild av en fördelning. Tänk er ett histogram och om man tar och ritar en kurva ungefär där varje stapel slutar. Det ger en fin kurva som enkelt beskriver formen på fördelningen. Det man får på köpet är färre detaljer; små skillnader kan bortses och även outliers kan hamna utanför. Med täthetskurvan kan man också uppskatta medianen, och till viss del även medelvärdet. Här nedan kommer ett första exempel:

I denna första fördelning så är den symmetrisk. Vi får då både median och medelvärde i mitten av kurvan. Om man betraktar ytan under kurvan så är arean lika stor till vänster som höger om medianen. Om fördelningen är asymmetrisk så får vi inte medianen och medelvärdet vid samma punkt. I bilden nedan är fördelningen högerskev:

Eftersom fördelningen har extrema värden åt höger så får vi ett medelvärde som är högre än medianen. Fortfarande gäller dock att medianen delar ytan under kurvan i två lika stora areor. Medelvärdet kan ses som den punkt som hela ytan, om det vore ett fast objekt, skulle balansera på.

När en fördelning är som i första exemplet – symmetriskt och formad som en klocka – då har det ett särskilt namn: normalfördelning. Vad det som är så speciellt med det återkommer jag till på onsdag.

Nu får vi se fram emot en normal vecka!