Uppehåll över, nytt år är igång

Det har nu gått en hel månad sedan jag senast skrev ett inlägg. Då var datumet 20:e december 2019. Det är nu den 20:e januari 2020. I stort sett har jag under hösten skrivit tre inlägg i veckan och jag planerar att fortsätta så den närmaste tiden. Det uppehåll som jag hade var välbehövt. När det kommer till familj så är det något som kommer först. Över nyår och de första veckorna därefter så ägnade jag mycket tid till att hälsa på familj och släkt tillsammans med bebisar som fortsätter att utveckla sig. Till detta har kommit att slutföra den kurs jag har ägnat övrig tid åt: grundläggande statistik. Men ni läsare som har följt mina inlägg ett tag nu vet att jag antagligen lyckats hitta tid över till programmering trots allt detta. Ni har rätt!

Den gångna månaden har jag ägnat strötiden åt att göra en lättare data scaper. Den har till uppdrag att hitta bokinformation så att användare inte ska behöva fylla i femtioelva fält på egen hand. Istället ska användare kunna ägna sig åt att skriva om sin senaste läsning. Jag laddade upp denna funktion vid lunch idag. Så om du vill se om det funkar så kan du bli medlem idag på bokarenan.se/registrera.

Nästa steg i Bokarenan är några mindre justeringar i layouten och jag ska kolla på möjligheten att införa OAuth; eller möjligheten att logga in med ditt Google-konto. Uppdateringar om det kommer längre fram.

Denna vecka på Femte Arenan så kommer jag fortsätta i statistikens tecken. På onsdag kommer jag beskriva hur man kan analysera om det finns statistiskt signifikanta skillnader mellan röda slajmar och gröna slajmar vad avser deras preferens för att äta maskrosor. På fredag kommer jag försöka förutse hur mycket slajm en slajmklump kan producera baserat på hur mycket maskrosor den har ätit under dagen. Vi kommer alltså beröra chi2-analys och linjär regressionsanalys denna vecka. Det är ju toppen, och superintressant för en slajmproducent! Vi ses på onsdag!


Tredje advent, nu är Bokarenan uppe

Måndag och en vecka närmare jul. Vi är i Tredje Advent och snart blir det ett uppehåll över jul och nyår när jag fokuserar på att umgås med familj. Lite nyheter jag har att komma med är att mitt projekt för Bokarenan har kommit till basversionen, eller vad man skulle kunna kalla för Minimal Viable Product. Spana in bokarenan.se och dela med dig av dina läsupplevelser. För närvarande behöver medlemmar lägga till grundinformation för böcker de recenserar, men jag har börjat lära mig lite Python för att kunna stötta upp med detta. Tanken är att skapa en Web Crawler som kan samla in information om böcker, och på så sätt underlätta för medlemmar i deras ifyllande. Jag är mycket nöjd över att ha kommit så här långt.

Men denna vecka går annars åter i statistikens tecken. Denna vecka kommer jag skriva om att bedöma statistiskt underlag när man bara har med en variabel att göra. Exempelvis hur många anser att Slajm är en produkt de skulle vilja köpa? Där jag tidigare har skrivit om medelvärden handlar det här om att göra bedömning utifrån fördelningar. Mer om detta på onsdag. Vi ses då!


En normal vecka

Efter förra veckan så är jag nu klar med första delen av statistikkursen. Det innebär att jag denna veckan går från enklare diagram till att beskriva täthetskurvor och normalfördelning.

Täthetskurvor (eller density curves på engelska) är en idealiserad bild av en fördelning. Tänk er ett histogram och om man tar och ritar en kurva ungefär där varje stapel slutar. Det ger en fin kurva som enkelt beskriver formen på fördelningen. Det man får på köpet är färre detaljer; små skillnader kan bortses och även outliers kan hamna utanför. Med täthetskurvan kan man också uppskatta medianen, och till viss del även medelvärdet. Här nedan kommer ett första exempel:

I denna första fördelning så är den symmetrisk. Vi får då både median och medelvärde i mitten av kurvan. Om man betraktar ytan under kurvan så är arean lika stor till vänster som höger om medianen. Om fördelningen är asymmetrisk så får vi inte medianen och medelvärdet vid samma punkt. I bilden nedan är fördelningen högerskev:

Eftersom fördelningen har extrema värden åt höger så får vi ett medelvärde som är högre än medianen. Fortfarande gäller dock att medianen delar ytan under kurvan i två lika stora areor. Medelvärdet kan ses som den punkt som hela ytan, om det vore ett fast objekt, skulle balansera på.

När en fördelning är som i första exemplet – symmetriskt och formad som en klocka – då har det ett särskilt namn: normalfördelning. Vad det som är så speciellt med det återkommer jag till på onsdag.

Nu får vi se fram emot en normal vecka!


Nu drar det igång med statistik

Tidigare inlägg har varnat om det och nu är det dags; här är mitt första inlägg om statistik. Så jag påbörjar en grundläggande kurs i statistik denna vecka. Jag går den med syfte att uppdatera mig om metodiken för att kunna tillämpa det inom mina intresseområden. Jag har gått tidigare kurs i ”kvantitativa metoder”, men det var 2010. Mycket av den kunskapen finns kvar någonstans och jag behöver hjälp att ta fram det. Jag hoppas trots det att jag lär mig lite nytt. Jag hoppas kunna göra regressionsanalyser och presentera resultat på ett spårbart och enkelt sätt. Kanske finns det möjligheter att göra kopplingar till Bokarenan i framtagning av exempelvis läsrekommendationer. Svårigheten att göra det på Bokarenan kan ju ses i det dataunderlag som finns. För närvarande har applikationen endast EN användare.

Denna veckan kommer jag läsa igenom lite grundläggande begrepp inom statistik. Det handlar om medelvärde, median, standardavvikelse, kvartiler, med mera.

Image of a dice.

Vad är sannolikheten att jag ska få en femma när jag kastar en tärning? Svaret har att göra med sannolikhet. Sannolikheten för att få ett värde av sex möjliga är alltså: 1/6.

Vad är sannolikheten att jag ska få en femma om båda gångerna om jag kastar en tärning två gånger? Jo, det är:

Alltså är sannolikheten för två femmor på raden lika med 1/36, vilket är knappt 3%.

För att beräkna sannolikheten för på varandra oberoende händelser så kan man använda det som kallas sannolikhetslärans multiplikationssats. Det var detta som jag precis gjorde.

Till nästa gång kommer jag att ha börjat tugga på Practice of statistics for business and economics av Alwan Layth. Det är en nästan 1000 sidor tjock bok och utgör kursens enda litteratur. Det ser jag fram emot. Den har många bilder!