”Om du torterar datan tillräckligt länge, kommer den att erkänna vad som helst”

Det klassiska citatet är både ett välkänt uttryck och samtidigt en skarp varning för det som kallas p-hacking. Överanalysering av utfallet tills man får det resultat man vill ha vilket ofta leder till falska samband och felaktiga slutsatser.

Att aktivt leta samband som saknar verklighetsförankring kan dessutom hjälpa till att undergräva den vetenskapliga trovärdigheten.

Det mest effektiva skyddet mot p-hacking är att förhandsregistrera forskningsstudien. Detta förhindrar att någon ska försöka ändra spelreglerna under studiens gång.

Fler viktiga steg man kan ta handlar om urvalsstorlek, att definiera mätperioder och att följa en strikt plan för datahantering.

Här kommer några förslag på förberedelser du kan göra

Förhandsregistrera studien

• Definiera hypoteser – Skriv ner exakt vilka samband som ska undersökas.
• Lås analysplanen – Specificera vilka tester, kovariater och exkluderingskriterier som ska användas.
• Plattformar – Använd öppna arkiv som OSF (Open Science Framework) för att tidsstämma planerna.

Bestäm urvalsstorlek i förväg

• Poweranalys – Räkna ut exakt hur många observationer eller datapunkter som krävs för att upptäcka en meningsfull effekt.
• Definiera mätperioder – Bestäm i förväg när datainsamlingen ska avslutas och samla inte in mer data i efterhand.

Skapa en strikt datahanteringsplan

• Separera datainsamling och analys – Låt om möjligt en oberoende person hantera insamlingen, eller lås rådatan så att den inte kan manipuleras under processens gång.
• Full transparens – Dokumentera varje ändring, omkodning av variabler eller borttag av outliers i den slutliga rapporten.

Få hjälp av våra statistiker med dina förberedelser och analyser i sommar.

Fyll i formuläret så kontaktar vi dig för ett förutsättningslöst samtal!

När man pratar om statistik är ”Skräp in, skräp ut” ett uttryck som på många sätt är väldigt passande. Resultatet är med andra ord helt beroende av datamaterialet som ska analyseras. Om datasetet har för låg kvalitet finns det ingen möjlighet att få fram ett slutresultat som är korrekt, tillförlitligt och relevant för sitt ändamål.

Det spelar i så fall ingen roll vilka metoder eller verktyg som används då kvaliteten på utfallet redan är avgjort på förhand.

De vanligaste felen går att undvika redan i planeringsfasen om man har de rätta kunskaperna. Statistiska fallgropar är vanliga felkällor vid insamling, analys och tolkning av statistik. Dessa förekommer ofta då samband förväxlas med orsakssamband som vid det vanliga exemplet glassätande och drunkningsolyckor.

Felaktig urvalsmetodik är ofta förekommande och kan leda till snedvridna resultat eller problem med bortfall i enkäter. Andra fallgropar innefattar att inte ha tydliga definitioner för det som mäts, att använda för komplicerade metoder eller att dra för stora växlar på resultaten från undergruppsanalyser.

Planering vid statistisk analys innebär att noggrant studiens mål, hypoteser och att välja rätt datainsamlingsmetoder. Dessa steg behöver formuleras i en statistisk analysplan (SAP) tillsammans med en beskrivning där datahantering och analysmetoder specificeras. En väl utarbetad plan bör säkerställa att analysen är meningsfull, frågeställningen kan besvaras och att den utförs på ett korrekt sätt.

Analysplanen bör alltid tas fram före studiestart då den även hjälper utföraren att undvika vanliga fallgropar och misstag genom att definiera analysmetoder i förväg. Nyckelkomponenter i en statistisk analysplan börjar med frågor som rör studiedesign, metoder för datainsamling och vilka analysmetoder som ska användas.

Planering för hur resultaten ska sammanfattas och presenteras, till exempel genom tabeller eller grafer är också nödvändigt och behöver inkluderas.

Denna process omfattar allt som rör insamling, organisering, lagring, skydda, underhålla och använda data som en värdefull resurs under hela dess livscykel. Det innefattar även datastrategier, policys, rutiner och verktyg för att säkerställa datakvalitet, dataintegritet, datasäkerhet och regelefterlevnad.

Eftersom resultatet i slutändan är helt beroende av datamaterialet som ska analyseras ökar chanserna att det blir korrekt, tillförlitligt och relevant genom en effektiv datahantering. Utöver ett bättre resultat blir det dessutom betydligt enklare att följa alla dataskyddslagar och säkerställa datasekretess.

Grafhantering innebär att skapa och modifiera diagram för att visuellt representera och analysera data. I praktiken innebär det ofta att man behöver välja lämpliga diagramtyper och justera visuella element som axlar och text. Det kan även innefatta exportering av grafer till andra filformat för att möjliggöra användning i rapporter och presentationer.

Det är helt enkelt en del av datahanteringsprocessen där man omvandlar rådata till begriplig information. Grafhantering är viktigt därför att det blir betydligt lättare att identifiera mönster och att kommunicera komplexa resultat till andra genom att använda sig av visuella representationer.

Statistisk styrka eller power är ett begrepp inom statistiken som vid hypotesprövning används för att beräkna sannolikheten att en undersökning upptäcker en verklig skillnad mellan grupper. Den beräkning som används kallas vanligtvis styrkeberäkning, powerberäkning eller poweranalys.

Grundprincipen är att man jämför en kontrollgrupp med en experimentgrupp som man utsätter för någon typ av behandling. Om grupperna skiljer sig tillräckligt mycket åt från varandra så kan vi utesluta att behandlingen inte haft någon effekt.

Beräkningen används huvudsakligen i stadiet för studieplanering för att säkerställa att de undersökta grupperna är tillräckligt stora för att studien ska vara möjlig att genomföra.

Statistisk analys handlar i slutändan om att beskriva och dra slutsatser från olika typer av datamaterial. Dessa dataset kan ha observerats, uppmätts eller på något annat sätt samlats in från verkligheten. För att kunna utföra egna analyser behöver man behärska fundamentala begrepp så som hypotesprövning, p-värden och konfidensintervall vilka är vanligt förekommande inom statistisk inferens.

Vidare är kunskaper om grundläggande metoder som korrelation, t-test och Chi2-test nödvändiga. Dessa metoder behövs för att dra slutsatser om större populationer baserat på information från ett urval. Några exempel på mer avancerade metoder som används vid statistisk analys är regression, ANOVA, mixade modeller och överlevnadsanalys.

Statistikakademins experter kan hjälpa dig oavsett om det rör sig om stora eller små problem. Det kan exempelvis handla om analyser på dataset för att identifiera mönster, trender och samband eller att driva ett helt projekt från start till mål.

Genom att använda avancerade statistiska metoder kan värdefull information och helt nya insikter från dina dataset identifieras. Varje nytt uppdrag börjar med ett inledande möte där vår statistiker går igenom frågeställningar, datainsamling samt val av statistisk metod tillsammans med dig.

Kontakta oss idag för att boka ett kort möte med någon av våra experter!