Svar till Nils Wiklund

Publicerat i Folkvett nr 1/2007.

Sven Ove Hansson svarar på Nils Wiklunds kritik i samma nummer av Folkvett.

Jag börjar med anklagelsen om amatörism. För att utarbeta ett bra försök inom detta område behövs flera slags kompetens. Min vana trogen rådgjorde jag med flera personer från olika kompetensområden om försöksuppläggningen. Av försöksrapporten (Folkvett 2006:4) framgår t.ex. att två personer med stor praktisk erfarenhet av experimentellt arbete inom detta område medverkade i förberedelserna. Tillsammans med den ene av dessa genomförde jag en provomgång av försöket för att identifiera felkällor eller andra problem som vi kunde ha missat i försöksplaneringen. Den andre är en internationellt ledande expert inom området som Wiklund avfärdar som ”en amerikansk trollkarl” vars påverkan på försökets utformning han finner ”märklig”.

Men Wiklunds huvudkritik gäller den statistiska försöksplaneringen, som faller inom mitt eget kompetensområde. (Liksom många andra vetenskapsfilosofer har jag bidragit till den internationella vetenskapliga litteraturen om grundprinciperna för försöksupplägg och utfallstolkning i hypotesprövande experiment.)

Wiklund har helt rätt i att det använda försöksupplägget skiljer sig i flera viktiga avseenden från dem som är gängse inom parapsykologin. Men dessa avvikelser beror inte på att jag skulle ha varit omedveten om den parapsykologiska traditionen. De beror på att jag i stället har valt att använda metoder som är gängse inom vetenskapen i övrigt.

Hypotesprövning

När man i gängse vetenskap genomför en statistisk hypotesprövning utgår man från en någorlunda specifik hypotes om en effekt eller ett fenomen vars existens man anser sig ha anledning att förmoda. Mot denna brukar man ställa en nollhypotes, som förenklat kan sägas innebära att det man iakttar bara är slumpvariationer. Man fäster avseende vid en iakttagelse som synes stödja hypotesen endast om denna iakttagelse vore osannolik om nollhypotesen är sann. Med statistisk signifikans avses just detta, att den iakttagna effekten vore osannolik om nollhypotesen är sann.

Det är ett vanligt misstag att bedöma försöksutfall enbart utifrån signifikansen. En av de viktigaste fallgroparna är att en hög signifikans inte är någon garanti mot systematiska fel.

En parapsykologisk tradition

Traditionella parapsykologiska undersökningar skiljer sig från vetenskapliga undersökningar inom andra områden genom att man inte har en specifik hypotes att pröva, t.ex. om en effekt av en viss storlek. I stället betraktar man alla ”signifikanta” avvikelser från nollresultat som belägg för det man letar efter. Ofta upprepar man sina försök ett stort antal gånger. Det innebär att även ett mycket litet metodfel kan ge upphov till signifikanta resultat.

Låt oss ta ett konkret exempel. Antag att det finns ett litet fel i ett parapsykologiskt försök, t.ex. att försökspersonen ungefär var femtionde gång kan se reflexer i försöksledarens glasögon, med vars hjälp han kan ”gissa rätt”. Om försökspersonen använder denna möjlighet, och man upprepar försöket tillräckligt många gånger, kommer man att få ett resultat med hög grad av statistisk signifikans. Detta resultat kan verka mycket imponerande så länge som man bara ser till graden av signifikans. (”Bara en chans på 10 000 att få detta resultat av slumpen”, etc.) Men för att rätt kunna bedöma det måste man se till effektens storlek, och bedöma den i relation till försöksupplägget.

Med andra ord: för att ett hypotesprövande försök ska vara meningsfullt måste den eftersökta effekten vara tillräckligt stor i förhållande till förväntade eller troliga systematiska fel i försöket. Om så inte är fallet är resultatet ingenting värt, hur höggradig signifikans man än uppnår.

Inga perfekta försök

Det är ett vanligt fel inom parapsykologin att man tror sig kunna göra ”perfekta” försök. Om ett försök verkligen vore perfekt, det vill säga helt fritt från icke-slumpmässiga effekter, kunde ju hur små effekter som helst räknas som bevis för märkliga fenomen. Men några perfekta försök finns inte, varken inom parapsykologin eller inom andra forskningsområden.

Wiklund synes i sitt inlägg förespråka den traditionella metoden inom parapsykologin, som innebär att man letar efter signifikanta avvikelser från nollhypotesen. Denna metod avviker från annan vetenskap, där man i stället letar efter signifikanta belägg för en i förväg uppställd hypotes om en effekt, och där den eftersökta effektens storlek är en viktig parameter i bedömningen.

Likadant som i annan vetenskap

Jag valde ett upplägg enligt gängse vetenskap, där vi således letade efter belägg för en i förväg uppställd hypotes om en effekt och dess storlek. Men försöket skiljer sig ändå från de flesta andra försök genom att den testade hypotesen inte var utvald av försöksledaren (mig) som en trolig hypotes. I stället testade jag ett påstående som hade framförts av en annan person, nämligen försökspersonen. Det finns anledning att vara mycket tydlig om detta. Jag hade ingen annan anledning att testa Landins förmåga att avgöra könet hos en dagboksförfattare än hennes eget påstående att hon har en sådan förmåga. När man testar en hypotes som framlagts av någon annan ska man eftersträva få denna hypotes så noga preciserad som möjligt. I detta fall handlade det framför allt om att ta reda på med hur stor säkerhet hon ansåg sig lyckas med uppgiften.

Hade Landin sagt att hon skulle lyckas t.ex. i 51% av fallen hade försöksupplägget behövt vara mycket annorlunda. Skillnaden i storlek och material hos dagböckerna hade t.ex. blivit en svårhanterad felkälla. Det är tveksamt om ett sådant försök alls hade kunnat genomföras. Men det Landin påstod var att hon lyckas med denna uppgift i minst 80% av fallen, och det var detta som skulle prövas.

Ofalsifierbara hypoteser

Personer med föregivet paranormala förmågor (”psychics”) brukar påstå sig ha stor träffsäkerhet. Landins uppgift att hon lyckas i minst 80% av fallen är tämligen typisk. Detta är för övrigt en del av dessa personers yrkesidentitet. Vem går till en spågumma som påstår sig ha rätt i 51% av fallen?

Men när dessa personer sedan testas av traditionella parapsykologer sänks genast anspråken, och man försöker ta reda på om de kan åstadkomma något resultat som alls avviker från slumpen. Som jag redan nämnt får man ofta skenbart sådana resultat eftersom man genomför långa försöksserier där även små försöksfel leder till signifikanta avvikelser från slumpen.

På detta sätt ersätter man en falsifierbar hypotes med en som inte är falsifierbar. Hypotesen att en person får rätt t.ex. i 80% av fallen i en uppgift där hon slumpmässigt bara skulle få 50% är en falsifierbar hypotes. (Upprepar man försöket tillräckligt många gånger kan man nå resultat som är oförenliga med 80%-hypotesen.) Men hypotesen att en person lyckas i fler än 50% av fallen med en sådan uppgift är i praktiken inte falsifierbar.

Denna glidning från falsifierbara till ofalsifierbara hypoteser är ett systemfel i parapsykologin. Vetenskaplig hypotesprövning handlar inte om att hitta signifikanta avvikelser från nollhypotesen utan om att uppställa och pröva meningsfulla och sammanhängande hypoteser med högt förklaringsvärde.

För kort för vad?

Att vi kunde nöja oss med en serie om 20 dagböcker berodde förstås på att den hypotes som skulle prövas var en 80%-ig förmåga. En traditionell parapsykolog tycker liksom Wiklund att ”försöksserien var alldeles för kort” i vårt försök. För kort för vad? Inte för kort för att testa Landins påstående om en minst 80%-ig förmåga. Däremot skulle den ha varit för kort för att ”upptäcka” t.ex. om hon hade rätt i 51% av försöken. Men en sådan upptäckt skulle inte vara av något intresse, eftersom det knappast skulle gå i ett dagboksförsök att eliminera felkällor som kan ge effekter av denna storlek.

Wiklund avfärdar som ”helt fel” min redovisning av hur sannolikt det vore att få minst fyra rätt av sex om man har 80% chans att gissa rätt i vart och ett av de sex försöken. Men här är inget som är ”helt fel”. Vad det handlar om är i stället att Wiklund inte godtar att kalkylen ska göras utifrån den hypotes som försöket konstruerades för att testa. (Något förvirrande är dock att Wiklund avfärdar beräkningen som ”helt fel” men några rader längre ned själv genomför precis samma beräkning.) Jag avstår från att gå in på Wiklunds övriga påståenden om statistiska ”fel”. Den statistiskt bevandrade läsaren kan lätt se att även dessa handlar om att han inte accepterar mitt val av hypotes för testning.

Wiklund sparar inte på invektiven. Han kallar försöket för ”amatörmässigt”, 1800-talsmässigt, ”helt fel” etc. Men det han i sak kritiserar är att jag följer gängse metoder från andra vetenskapsområden. Min ”amatörmässighet” består i att jag envisas med att testa den i förväg uppställda hypotesen i stället för att leta efter godtyckligt små, men statistiskt signifikanta avvikelser från nollhypotesen.

Sven Ove Hansson