Etikett statistik

En normal vecka

Efter förra veckan så är jag nu klar med första delen av statistikkursen. Det innebär att jag denna veckan går från enklare diagram till att beskriva täthetskurvor och normalfördelning.

Täthetskurvor (eller density curves på engelska) är en idealiserad bild av en fördelning. Tänk er ett histogram och om man tar och ritar en kurva ungefär där varje stapel slutar. Det ger en fin kurva som enkelt beskriver formen på fördelningen. Det man får på köpet är färre detaljer; små skillnader kan bortses och även outliers kan hamna utanför. Med täthetskurvan kan man också uppskatta medianen, och till viss del även medelvärdet. Här nedan kommer ett första exempel:

I denna första fördelning så är den symmetrisk. Vi får då både median och medelvärde i mitten av kurvan. Om man betraktar ytan under kurvan så är arean lika stor till vänster som höger om medianen. Om fördelningen är asymmetrisk så får vi inte medianen och medelvärdet vid samma punkt. I bilden nedan är fördelningen högerskev:

Eftersom fördelningen har extrema värden åt höger så får vi ett medelvärde som är högre än medianen. Fortfarande gäller dock att medianen delar ytan under kurvan i två lika stora areor. Medelvärdet kan ses som den punkt som hela ytan, om det vore ett fast objekt, skulle balansera på.

När en fördelning är som i första exemplet – symmetriskt och formad som en klocka – då har det ett särskilt namn: normalfördelning. Vad det som är så speciellt med det återkommer jag till på onsdag.

Nu får vi se fram emot en normal vecka!


Nu drar det igång med statistik

Tidigare inlägg har varnat om det och nu är det dags; här är mitt första inlägg om statistik. Så jag påbörjar en grundläggande kurs i statistik denna vecka. Jag går den med syfte att uppdatera mig om metodiken för att kunna tillämpa det inom mina intresseområden. Jag har gått tidigare kurs i ”kvantitativa metoder”, men det var 2010. Mycket av den kunskapen finns kvar någonstans och jag behöver hjälp att ta fram det. Jag hoppas trots det att jag lär mig lite nytt. Jag hoppas kunna göra regressionsanalyser och presentera resultat på ett spårbart och enkelt sätt. Kanske finns det möjligheter att göra kopplingar till Bokarenan i framtagning av exempelvis läsrekommendationer. Svårigheten att göra det på Bokarenan kan ju ses i det dataunderlag som finns. För närvarande har applikationen endast EN användare.

Denna veckan kommer jag läsa igenom lite grundläggande begrepp inom statistik. Det handlar om medelvärde, median, standardavvikelse, kvartiler, med mera.

Image of a dice.

Vad är sannolikheten att jag ska få en femma när jag kastar en tärning? Svaret har att göra med sannolikhet. Sannolikheten för att få ett värde av sex möjliga är alltså: 1/6.

Vad är sannolikheten att jag ska få en femma om båda gångerna om jag kastar en tärning två gånger? Jo, det är:

Alltså är sannolikheten för två femmor på raden lika med 1/36, vilket är knappt 3%.

För att beräkna sannolikheten för på varandra oberoende händelser så kan man använda det som kallas sannolikhetslärans multiplikationssats. Det var detta som jag precis gjorde.

Till nästa gång kommer jag att ha börjat tugga på Practice of statistics for business and economics av Alwan Layth. Det är en nästan 1000 sidor tjock bok och utgör kursens enda litteratur. Det ser jag fram emot. Den har många bilder!