Det kan synes en triviel pointe, men den er alligevel ikke triviel, når det kommer til mange primærstudier, der hævder at måle effekter: Hvis en effekt skal kunne måles over tid, i forhold til andre individer, andre interventioner, andre studier osv., må der anvendes en eller form for standardiseret måling.

Evidensstigen

Forskellige forskningsspørgsmål kræver forskellige forskningsdesign. 
At svare kvalificeret på spørgsmålet ”Virker indsats A over for målgruppe B målt på succeskriterium C?” er en stående samfundsvidenskabelig udfordring: Hvilke forskningsdesign kan identificere virkningen af en intervention i forhold til, hvad ville der være sket, hvis man ikke havde anvendt interventionen? Det, man er på jagt efter, er en empirisk fastlæggelse af et entydigt årsags-virknings-forhold eller kausaliteten fra intervention til adfærd.
Problemet er, at den ændring i adfærd, man fx kan iagttage, kan skyldes adskillige andre faktorer end netop interventionen.
Uanset betegnelse skal en rangering af et forskningsdesign basere sig på, i hvilken grad det er i stand til at tage højde for dette problem. Figuren nedenfor illustrerer evidensstigen og dens rangering af forskellige forskningsdesigns styrke til at svare på spørgsmål om effekt.