Signifikansmissbruket i pseudovetenskapen
Sven Ove Hansson, professor i filosofi, uppmärksammar några former av statistikmissbruk.
Statistisk signifikans är som bekant ett ganska svårt begrepp. Man kommer sanningen rätt nära om man litet förenklat förklarar signifikans som ”sannolikheten att det man förutsagt och iakttagit skulle inträffa om enbart slumpen rådde”.
Signifikans måste alltså alltid bedömas i relation till en förutsägelse. Denna förutsägelse kan (men måste inte) ha sin grund i en vetenskaplig hypotes. Låt oss använda ett enkelt exempel där sannolikheterna är lätta att beräkna: Vi gör förutsägelser om en viss tärning, och prövar dessa förutsägelser genom att kasta tärningen.
Antag först att vår hypotes är att tärningen alltid ger en sexa. Vi kastar tärningen tre gånger i rad, och får sexa alla tre gångerna. Sannolikheten för detta är cirka 0,005 om tärningens sidor är lika sannolika och den följer slumpens vanliga lagar. Detta resultat är alltså i högsta grad statistiskt signifikant, om vi använder den gängse gränsen (0,05).
”Resultatet är statistiskt signifikant” betyder alltså att sannolikheten är mindre än 1 på 20 att resultatet ska uppstå om slumpen råder. Detta kan vi tolka som att resultatet avviker beaktansvärt mycket från slumpen. Men som exemplet visar kan det inte tolkas som att vi har skaffat oss tillräckliga bevis för vår hypotes. Vem skulle komma på tanken att efter tre kast betrakta det som bevisat att tärningen alltid ger sexa, när det vore så enkelt att kasta tärningen några gånger till? Låt oss nu se närmare på fem vanliga missförstånd om statistisk signifikans.
Missförstånd 1: Signifikansvärden behöver inte hänvisa till en i förväg gjord förutsägelse.
Antag att vår hypotes i stället vore att tärningen alltid ger en etta varannan gång och en tvåa varannan gång. Vi kastar tärningen tre gånger i rad, och får en etta varannan gång och en tvåa varannan gång. Sannolikheten att av en slump få ett sådant utfall är cirka 0,009. (Det finns två sådana utfall, 1-2-1 och 2-1-2, vars sannolikheter ska adderas.) Antag i stället att hypotesen är att tärningen omväxlande och i nu nämnd ordning ger en trea, en tvåa och en femma. Sannolikheten för ett utfall som stämmer med denna hypotes är cirka 0,014. (Det finns tre sådana utfall, 3-2-5, 2-5-3 och 5-3-2.) Vi kan lätt konstatera att oavsett vilket utfall tärningen ger på tre kast, är resultatet signifikant i förhållande till någon hypotes som kan uppställas om tärningen. Om vi tillåter oss att uppställa hypotesen efter att vi kastat tärningen blir således varje utfall statistiskt signifikant.
Exemplet är absurt. Men när pseudovetenskapare har tolkat telepatiexperiment har de ofta gjort precis detta misstag. De har efter experimenten letat efter mönster som är ”statistiskt signifikanta”. Detta är särskilt vanligt i experiment med kortgissning, där en person (sändaren) tänker på kort efter kort, och en annan person (mottagaren) gissar vilket kort hon tänker på. I rapporter från sådana experiment har det hetat att mottagaren visserligen inte tänkte oslumpmässigt ofta på samma kort som sändaren, men i stället på nästa kort, eller det föregående kortet, eller ett rött kort när sändaren såg ett svart kort, etc.
En forskare som gör ett signifikanstest utan en i förväg uppställd, väldefinierad hypotes är ungefär lika oskicklig som en revisor som genomför en revision utan att granska räkenskaperna.
I ingetdera fallet kan en prövning värd namnet göras, eftersom själva förutsättningen för att dra några slutsatser saknas.
Missförstånd 2: Statistisk signifikans anger sannolikheten att den hypotes man prövar är falsk.
Som framgått är detta en grov feltolkning. Antag att jag i förväg uppställer den ovannämnda hypotesen att vår tärning alltid omväxlande och i nu nämnd ordning ger en trea, en tvåa och en femma. Antag vidare att du (förmodligen trots en viss skepsis) går med på att kasta tärningen och att du i dina tre första kast får just en trea, en två och en femma. Som sagt är detta statistiskt signifikant.
Men det betyder inte att du måste gå med på att sannolikheten är större än 0,95 att hypotesen stämmer, det vill säga att tärningen kommer att fortsätta att ge denna serie i all oändlighet. Givet vad vi vet om tärningar är detta en mycket osannolik hypotes. För att vi ska få anledning att tro på den krävs det därför ett mycket starkt stöd (en lång serie av upprepade, välkontrollerade kast).
Missförstånd 3: Statistisk signifikans mäter sannolikheten att det man iakttar beror på slumpen.
Detta är möjligen en något mildare variant av missförstånd 2, men den leder till lika absurda konsekvenser. Vi kan använda samma exempel. Antag att dina tre kast med tärningen bekräftar min i förväg uppställda hypotes att tärningen alltid ger en trea, en tvåa och en femma, och sedan åter en trea etc. Resultatet är statistiskt signifikant på 0,05-nivån. Men detta ger dig ingen anledning att anse att sannolikheten att resultatet av dina tre kast beror på slumpen är mindre än 5 % (eller, liktydigt, att sannolikheten att resultatet inte beror på slumpen är större än 95 %).
Det finns två skäl till detta. Dels har ingen tärning hittills betett sig så, och tack vare den s.k. speldjävulen är den empiriska bevisningen om tärningars beteende mycket omfattande. Dels känner vi inte till någon rimlig mekanism som skulle leda till ett mönster av det slaget. Situationen i ett telepatiexperiment är mycket likartad.
Tyvärr än denna vantolkning av signifikans mycket utbredd. Och inte bara inom pseudovetenskapen. Jag har stött på den hos personer som genomgått ett i sammanhanget generande antal terminers universitetsstudier i statistik.
Och i svenska Wikipedia uppges (3 augusti 2010) att en signifikans på 5 %-nivån ”anger att den observerade avvikelsen i 19 fall av 20 inte beror på slumpen”. Engelska Wikipedia anger, likaledes felaktigt, att ”a result is called statistically significant if it is unlikely to have occurred by chance”. (Danska, spanska, franska och norska Wikipedia gör samma fel som den engelska varianten. Tyska och portugisiska Wikipedia har korrekta definitioner.) För att vara tydlig: Signifikans är inte sannolikheten att det vi iakttar beror på slumpen. Däremot är signifikans (givet gängse val av nollhypotes) detsamma som sannolikheten att det vi iakttar skulle inträffa om slumpen rådde.
Skillnaden är förstås särskilt viktig i fall där vi har starka skäl att tro att förloppen är slumpmässiga.
Eftersom detta missförstånd är så utbrett är det föga förvånande att det också förekommer inom pseudovetenskapen. Jag har ofta stött på påståenden som: ”Om rutgängaren lyckas uppnå ett resultat som är signifikant på 5%-nivån, så är det 95 % chans att hans resultat inte beror på slumpen.” Det är naturligtvis helt felaktigt.
Missförstånd 4: Signifikant avvikelse från nollhypotesen är ett adekvat mått på graden av vetenskaplig bevisning.
När man testar personer som påstår sig ha paranormal förmåga dyker denna vantolkning nästan alltid upp. Oavsett vilken förmåga det är som ska testas, brukar försökspersonen ta upp frågan om signifikans. ”Jag tycker det räcker att jag kan uppnå 5 % signifikans.” brukar det heta, eller ”Vilken signifikansnivå måste jag uppnå?” Svaret på den sistnämnda frågan är förstås att vi inte planerar försöket med signifikansnivån som enda måttstock.
I stället frågar jag: Hur ofta är du säker om att lyckas? Om det t ex gäller att avgöra könet hos en person som sitter bakom ett skynke frågar jag: Har du rätt i minst 51 % av fallen, eller kanske 75 eller 90 procent? Om det finns en effekt måste denna ha en viss storlek, och när denna är känd kan vi planera försöksstatistiken därefter. Detta är som jag framhöll inledningsvis helt avgörande för att man alls ska kunna tillämpa statistiska signifikansberäkningar.
Utan en rimligt precis förutsägelse, uppställd i förväg, går detta inte. Hypotesen i ett fall som detta måste hänvisa till en effekt av en viss storlek, t ex att i 75 % av fallen kunna ange rätt kön. Det speciella som skiljer sådana tester från vanlig vetenskaplig hypotesprövning är att det är försökspersonen, inte forskaren, som ställer upp hypotesen. Men det avgörande är inte vem som ställer upp hypotesen utan när detta görs, nämligen före försöken.
När den förutsagda effektens minimistorlek är känd kan man lätt räkna ut hur många gånger man behöver upprepa försöket för att en iakttagen effekt av den storleken ska ha rimligt låg sannolikhet att uppstå om det inte finns någon effekt alls. Man kalibrerar då lämpligen till en betydligt strängare signifikansnivå än 5 %. Antag att vår försöksperson påstår sig kunna bestämma könet rätt i minst 75 % av fallen. Om vi då upprepar försöket 40 gånger ska hon ge rätt svar minst 30 gånger för att lyckas enligt sitt eget kriterium. (Sannolikheten att uppnå detta om slumpen råder är cirka 0,001.) Detta är inte på något sätt ojuste, utan tvärtom mycket juste. Vi undersöker om hon kan göra det hon påstår sig kunna göra, och om hon kan det får vi ett resultat som är statistiskt säkerställt i hög grad. Framgångsfrekvensen, i detta exempel 75 %, är i motsats till signifikansen ett rimligt mått på vad hon kan göra.
Om utfallet blir färre än 30 rätt har hypotesen inte bekräftats.
Det duger naturligtvis inte att då byta hypotes och säga ”Jag lyckades i 29 fall av 40, och det är minsann statistiskt signifikant.” Att uppnå signifikans för en hypotes som man uppställer i efterskott är ungefär lika imponerande som att kasta mitt i prick genom att först kasta en pil mot en tom vägg och sedan rita dit måltavlan. Missförstånd 5: Ett höggradigt signifikant resultat ger ett starkt stöd åt den testade hypotesen.
Även detta är felaktigt, framförallt eftersom vi sällan direkt testar en hypotes. I stället testar vi en förutsägelse som hypotesen ger upphov till. Om det finns andra hypoteser som ger upphov till samma förutsägelse, kan testet inte skilja mellan dessa olika hypoteser. Antag att jag lägger fram hypotesen att en ond ande som bor i tärningen påverkar utfallet så att den ger sexa endast i en åttondel (i stället för en sjättedel) av kasten. Antag vidare att du kastar tärningen 8000 gånger för att testa den hypotesen, och får sexa i cirka 1000 av dessa kast. Utfallet är i högsta grad statistiskt signifikant. Det ger ändå endast ett mycket svagt stöd åt hypotesen, eftersom det finns andra mera troliga hypoteser (t.ex. skev massfördelning hos tärningen) som ger samma förutsägelse. Detta problem kvarstår oavsett hur många gånger du upprepar försöket (med allt högre signifikans som följd), eftersom sannolikhetsfördelningen mellan andehypotesen och skevhetshypotesen inte påverkas.
Detta är ett mycket vanligt problem i samband med s.k. paranormala fenomen. I många parapsykologiska experiment finns det nämligen alternativa hypoteser som ger upphov till samma förutsägelse som det postulerade fenomenet, t.ex. hypoteser om fusk och om olika slags skevheter i materialet. Sannolikhetsfördelningen mellan den övernaturliga hypotesen och dessa alternativa hypoteser påverkas inte av att signifikansen blir mycket hög.
Det är vanligt i samband med parapsykologiska experiment att varje avvikelse från nollhypotesen tolkas som belägg för ett paranormalt fenomen. Det betyder i praktiken att varje felaktighet i experimentuppställningen som påverkar resultatet kommer att tolkas som en framgång.
Men ”avvikelse från slumpresultat” är någonting helt annat än ”avvikelse från slumpresultat på grund av ett paranormalt fenomen”. Därför måste sådana experimentupplägg ersättas av testningar av en precis hypotes om fenomenets karaktär och storlek.
Vad göra?
Vad ska göras åt det utbredda signifikans-missbruket? Även om de värsta fallen förekommer inom pseudovetenskapen är missbruket så utbrett på andra håll att det förebyggande arbetet måste vara mycket brett. Jag tror att de avgörande insatserna måste göras inom utbildningen.
Hellre en student som vet vad signifikans är och kan utföra ett eller två signifikanstest än en student som kan utföra tio olika slags signifikanstester men tror att de mäter sannolikheten att utfallet beror på slumpen.
En något annorlunda version av denna artikel har också publicerats i Statistikfrämjandets tidskrift Qvintensen nr 4/2010.