559
Lauri Nummenmaa
Efektikoko psykologisessa tutkimuksessa
Psykologisessa tutkimuksessa tilastollinen päätök-
senteko perustuu tyypillisesti Fisherin määrittele-
miin alfatasoihin ja nollahypoteesin merkitsevyys-
testaamiseen (NHST). Tällainen menettely ei
kuitenkaan ilmaise mitään tutkimuksessa muuttuji-
en välisen yhteyden voimakkuudesta. Lisäksi
NHST:n tulosten tulkinta on ongelmallista. Käsitte-
len tässä katsauksessa yleisimpiä ongelmia ja
päättelyvirheitä, jotka liittyvät NHST:n soveltamiseen
tutkimusaineiston analyysissa. Vertailen NHST:n
vaihtoehdoksi ja täydennykseksi esitettyjä efekti-
koon arvioimiseen perustuvia tunnuslukuja (d, g,
∆
,
r
,
Φ
,
η
ja
ω
) ja arvioin niiden soveltuvuutta psykolo-
gisen tutkimuksen tulosten esittämiseen. Esitän
myös suosituksen efektikoon estimaattien käyttämi-
sestä tutkimustuloksia raportoitaessa.
Psykologinen tutkimus perustuu numeerisessa
muodossa olevan tutkimusaineiston analysoimi-
seen tilastollisten menetelmien avulla. Tilastollis-
ten menetelmien tavoitteena on tyypillisesti tar-
kastella aineistossa olevaa signaali/kohina -suhdet-
ta (Killeen, 2005). Signaalilla viitataan tutkittavien
muuttujien väliseen mahdolliseen assosiaatioon ja
kohinalla otanta- ja mittausvirheestä johtuvaan sa-
tunnaisvaihteluun. Tilastollisten menetelmien
avulla on siten mahdollista arvioida, johtuuko kah-
den muuttujan havaittu assosiaatio todellakin
muuttujien välisestä yhteydestä vai onko se aiheu-
tunut sattumalta. Psykologiassa sovellettavat tilas-
tolliset analyysimenetelmät ovat kehittyneet vii-
meisten kahdenkymmenen vuoden aikana huo-
mattavasti. Esimerkiksi Bayesilaisten menetelmi-
en käyttäytymistieteelliset sovellukset (Gill, 2002),
latentit kasvukäyrämallit (Muthèn & Muthèn,
2000) ja riippumattomien komponenttien analyysi
(Stone, 2002) ovat mahdollistaneet tutkimusai-
neistojen entistä tarkemman ja monipuolisemman
kuvailemisen sekä analysoimisen.
Psykologiassa käytettävät tilastollisen päättelyn
periaatteet eivät ole kuitenkaan kehittyneet yhtä
nopeasti. Yleisimmin ilmiöitä koskevaan tilastolli-
seen päättelyyn sovelletaan edelleen kiistanalaista
ja monessa suhteessa ongelmallista menettelyä,
joka tunnetaan nimellä nollahypoteesin merkitse-
vyystestaus (Null Hypothesis Significance Tes-
ting, NHST). NHST:lle on esitetty lukuisia vaih-
toehtoisia ja täydentäviä menettelyitä, joiden avul-
la tutkimusaineistoa koskeva päättely voidaan suo-
rittaa tarkemmin ja paremmin. Nämä menettelyt
eivät kuitenkaan ole yleistyneet kuin vasta viime
vuosien aikana. Käsittelen tässä katsauksessa kes-
keisempiä NHST-menettelyyn liittyviä ongelmia
ja arvioin sille esitettyjä vaihtoehtoisia ja täydentä-
viä menetelmiä, efektikoon estimaatteja.
NHST JA SIIHEN LIITTYVÄT ONGELMAT
Fisher (Fisher & Bennett, 1925 / 1990) esitti nol-
lahypoteesin merkitsevyystestaamisen periaatteen
560 Psykologia /5-6/05
N U M M E N M A A
1
2
0
µ µ
−
≠
1
1
2
2
j
j
c
c
c
ψ
µ
µ
µ
=
+
+
0
0
0
(
)
(
)
( )
P D H
P H D
P H
∩
|
=
(
)
(
)
( )
P A B
P B A
P B
∩
|
=
1
2
0
µ µ
−
=
1
2
0
µ µ
−
=
1
2
0
j
c c
c
+ +
=
sellaisena kuin se nykyään tunnetaan. Jos koease-
telmassa on j solua, niin kontrasti ψ määritellään
painokertoimien c
j
avulla seuraavasti:
(1.1)
missä
Testin p-arvo määritellään tällöin laskemalla
määrätylle kontrastille ψ, kuinka todennäköistä
on saada tilastollinen tunnusluku joka on suurem-
pi kuin |ψ| välillä [ |ψ|,∞]. Tämä siis ilmaisee to-
dennäköisyyden P(x _ ψ | H
0
). Merkitään dataa
D:llä, jolloin yleisessä tapauksessa tarkastellaan
todennäköisyyttä P(D | H
0
). NHST ilmoittaa si-
ten todennäköisyyden sille, että otannan avulla
saadaan havaitun kaltainen data, jos nollahypotee-
si pitää paikkansa. Tällaisessa muodossa esitetyn
NHST:n soveltamiseen liittyy kuitenkin neljä
suurta ongelmaa, joita käsittelen lyhyesti ennen
kuin siirryn tarkastelemaan NHST:lle vaihtoeh-
toisia lähestymistapoja. Ongelmat ovat
1. NHST:ssa testataan todennäköisyyttä P(D |
H
0
), eikä tutkijan kannalta kiinnostavampaa to-
dennäköisyyttä P(H
0
| D) (Cohen, 1994).
2. Yleisimmin testattava nollahypoteesi (H
0
:
) ei pidä koskaan paikkaansa (Tukey,
1991).
3. NHST ei kvantifioi havaitun ilmiön amplitu-
dia ja on siten suboptimaalinen menettely teorian-
muodostuksessa (Loftus, 1996).
4. Alfatason valinta on arbitraarinen (Glass,
McGaw, & Smith, 1981).
| H
0
) ≠ P(H
0
| D). Jotta voisimme NHST:n tulos-
ten perusteella laskea posteriorisen todennäköisyy-
den P(H
0
| D), meidän tulee käyttää Bayesin teo-
reemaa (Bayes, 1764). Bayesin teoreeman mukaan
(1.2)
mikä siis NHST:n tapauksessa tarkoittaa
Jotta voisimme laskea posteriorisen todennä-
köisyyden P(H
0
| D), meidän tulisi tietää priorinen
todennäköisyys P(H
0
), eli ennen tutkimusta tie-
dossa ollut todennäköisyys sille, että nollahypotee-
si pitää paikkansa. Yleensä tämä ei kuitenkaan ole
tiedossa, muutenhan NHST:n tekeminen ei olisi
lainkaan tarpeellista. Bayesilaisessa päättelyssä (ks.
esim. Gill, 2002) ongelma ratkaistaan siten, että
priorinen todennäköisyys (tai sen jakauma) asete-
taan kaiken mahdollisen käytettävissä olevan prio-
risen tiedon perusteella ja testisuureen posteriori-
nen jakauma määritellään tämän perusteella. Tätä
tietoa voidaan taas vastaavasti käyttää määriteltä-
essä prioreja seuraavassa tutkimuksessa.
Milloin nollahypoteesi voi olla oikein
asetettu?
Jos emme kuitenkaan [syystä tai toisesta] halua
siirtyä Bayesilaiseen tilastolliseen päättelyyn, Co-
hen (1994) suosittelee että NHST:ta käytettäisiin
ainoastaan sellaisessa ”vahvassa” muodossa kuin
Popper (1959) on esittänyt. Tällöin tieteellisen
teorian tulee edetä yrityksinä kumota olemassa ole-
via teorioita, mikä onkin mahdollista NHST:n
avulla. Sen sijaan NHST:n avulla ei ole mahdollis-
ta todistaa teorioita oikeaksi hylkäämällä nollahy-
poteeseja. Tämä on ilmeistä jos ajatellaan, millaisia
kontrasteja ψ testattaessa yleisimmin käytetyt nol-
la- (H
0
:
P
(D | H
0
) ≠ P(H
0
| D)
Fisherin tapa nollahypoteesien testaamiseen on
intuitiivisesti mielekäs. NHST:n tulosten tulkitse-
minen on kuitenkin ongelmallista. NHST:ssa las-
ketaan P(D | H
0
), eli todennäköisyys sille, että data
havaitaan sillä ehdolla, että nollahypoteesi on ase-
tettu oikein. Tämä ei kuitenkaan ole yleensä tutki-
muksen kannalta mielenkiintoista – tutkijaa kiin-
nostaa paljon useammin selvittää, mikä on P(H
0
|
D), eli mikä on todennäköisyys sille, että nollahy-
poteesi on voimassa, jos data on havaitun kaltai-
nen. On huomattava, että intuition vastaisesti P(D
) ja vaihtoehtoinen hypoteesi
(H
1
:
) tyypillisesti ovat. Tällä tavoin
määritelty nollahypoteesi on triviaalisti epätosi ja
vaihtoehtoinen hypoteesi triviaalisti tosi. Lähes-
tulkoon minkä tahansa kahden jakauman odotus-
arvoissa havaitaan todennäköisesti eroa, jos mitta-
ustarkkuus on riittävän suuri. Tällaisen nollahypo-
teesin voidaan osoittaa olevan aina väärin asetettu.
Määritellään f(x)=normaalijakauman kertymä-
561
EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA
3
x
µ
− =
2
x
µ
− =
1
x
µ
− =
lim ( ) 1
lim ( ) 1
x
x
f x
g x
→∞
→∞
=
=
1
p arvo
efekti otoskoko
−
=
×
n
x
Z
σ
µ
−
=
funktio ja g( x)= t-jakauman kertymäfunktio. Täl-
löin
(1.3)
Tämä siis tarkoittaa, että jos kaikki muut tekijät
pysyvät vakioina, niin em. kertymäfunktioiden
arvo lähestyy ykköstä kun otoskoko lähestyy ääre-
töntä. Tarpeeksi suurella otoskoolla siis mikä ta-
hansa keskiarvojen ero on tilastollisesti merkitsevä.
Käytettäessä NHST:ta tällä tavoin asetetun nolla-
hypoteesin kumoamiseen voidaan itse asiassa aino-
astaan osoittaa, että käytetty tutkimusasetelma oli
riittävän vahva havaitsemaan olemassa olevan kes-
kiarvojen eron (Kirk, 1996).
NHST ei kvantifioi tutkimuksessa havaitun
ilmiön voimakkuutta
Useimmissa käytetyistä tilastollisissa testeissä
p-arvo riippuu sekä signaali/kohina -suhteesta että
otoskoosta. Intuitiivisesti voidaan ajatella, että
NHST:ssa p-arvot muodostuvat seuraavasti
(Nummenmaa, 2004):
(1.4)
Tästä siis seuraa, että suurissa otoksissa pienet-
kin efektit ovat tilastollisesti merkitseviä ja pienissä
otoksissa efektin on oltava suuri, jotta se olisi tilas-
tollisesti merkitsevä. Tarkastellaan esimerkkinä
yhden otoksen Z-testiä
(1.5)
Testisuure Z noudattaa normaalijakaumaa pa-
rametrein [0, 1]. Sovitaan, että. Tarkastellaan nyt,
miten testin p-arvo muuttuu otoskoon funktiona
kun
Kuva 1. NHST:n p-arvon muuttuminen otoskoon
ja
(1),
(2)
(3)
(Kuva 1). Kun keskiarvojen erotus on pieni (tässä
1), ei p-arvosta tule tilastollisesti merkitsevää
(<.05) edes viidenkymmenen henkilön otoksella.
Kun taas keskiarvojen erotus on suuri (tässä 3), niin
keskiarvojen erotuksesta tulee tilastollisesti mer-
kitsevä jo alle kahdenkymmenen hengen otoksella.
P-arvot ovat siis riippuvaisia sekä efektin koosta
että otoskoosta, mutta p-arvoissa nämä kaksi tie-
toa tiivistetään yhteen tunnuslukuun. Koska tun-
nusluvun suuruus riippuu efektin suuruuden lisäk-
si myös otoskoosta, NHST:ta käytettäessä on siten
suuri riski hyväksyä efekti, jonka voimakkuus on
triviaali (Chow, 1988). Kääntäen on myös mah-
dollista hylätä voimakkuudeltaan suuri efekti riit-
tämättömän otoskoon takia (Kirk, 1996). Koska
yksittäisen tutkimuksen otoskoko on mielivaltai-
nen, pelkän p-arvon raportoiminen ei siis riitä.
Alfatasot ovat arbitraarisia
Eräs useimmin NHST:ta kohtaan esitetyistä kri-
tiikeistä on alfatasojen arbitraarisuus (Kirk, 1996).
NHST:ta käytettäessä ilmiö ikään kuin muuttuu
todeksi, kun p-arvo alittaa sovitun kriittisen rajan –
tyypillisesti .05:n, mutta rajan asettamiselle ei ole
objektiivista perustelua. On siis mahdollista, että
kaksi tutkijaa voi havaita samanlaisissa koeasetel-
missa täsmälleen saman keskiarvojen erotuksen,
mutta erilaisista otoskoista johtuen he saavat
NHST:n tuloksena p-arvot .07 ja .05. NHST:a
käytettäessä toinen tutkijoista siis saa tutkimuksel-
laan tukea nolla- ja toinen vaihtoehtoiselle hypo-
teesille. Mutta, jos kummatkin tutkijat olisivatkin
valinneet alfatasoksi .01:n, niin molemmat olisivat
hylänneet vaihtoehtoisen hypoteesin. Koska alfa-
tasoihin perustuvan päättelyn lopputulos riippuu
sekä otoskoosta että valitusta alfatasosta, Rosen-
thal ja Rubin (1989) tiivistävätkin alfatasojen mie-
lekkyyden klassisessa Psychological Bulletin -ar-
10
20
30
40
50
.2
.4
.6
.8
1
1
2
3
x
x
x
P-arvo
Otoskoko
funktiona.
562 Psykologia /5-6/05
N U M M E N M A A
efekti
s
ψ
=
1
2
1
2
1
2
Cohenin
Hegdesin
=
Glassin
p
p
c
x
x
d
s
x
x
g
S
x
x
S
−
=
−
−
∆ =
sena. Yleisessä muodossa d-tyyppinen efektikoko
ilmaistaan seuraavasti:
(1.6)
missä ψ on tarkasteltava kontrasti ja s on hajonta-
termi, johon kontrastia verrataan. Riippuen koe-
asetelmasta s voidaan määritellä useammallakin
tavalla, ja jokainen määrittelyistä johtaa erilaiseen
efektikoon estimaattiin. Näistä yleisimmin käyte-
tyt (Olejnik & Algina, 2000) ovat (i) vertailtavien
solujen yhdistetty keskihajonta s
p
(Cohenin d), (ii)
kaikkien asetelman solujen yhdistetty keskihajon-
ta S
p
(Hedgesin g) ja kontrolliryhmän keskihajonta
S
c
(Glassin ∆):
(1.7)
Jos koe- ja kontrolliryhmien varianssien yhtä-
suuruusoletus on voimassa, sekä d, g että ∆ ovat
yhtä suuria. Jos oletus ei ole voimassa, tutkijan tu-
lee valita sellainen hajonnan estimaatti, joka kuvaa
kontrastin tarkoituksenmukaista mittayksikköä
käyttäen. Jos käytetään kontrolliryhmän keskiha-
jontaa (∆) tai kaikkien solujen yhdistettyä keski-
hajontaa (g), on efektikoon nimittäjään tuleva ha-
jontatermi sama kaikissa mahdollisissa kontras-
teissa ja kontrasteille lasketut efektikoot ovat kes-
kenään vertailukelpoisia. Haittapuolena kuitenkin
on se, että varianssitermi ei välttämättä kuvaa tar-
kasteltavan kontrastin hajontaa kovinkaan hyvin.
Jos taas hajontatermi lasketaan kontrastikohtai-
sesti, kuvaa hajontatermi paremmin jokaista yksit-
täistä kontrastia, mutta eri kontrasteille lasketut
efektikoot eivät olekaan enää vertailukelpoisia
keskenään.
Cohenin d:hen perustuvien estimaattien eräs
ongelma on, että periaatteessa ne voivat vaihdella
välillä [−∞, ∞]. Tyypillisissä tutkimuksissa d-pe-
rustaisten estimaattien vaihteluväli rajoittuu kui-
tenkin noin [-1, 1]:een. Kuinka suuri d-perustai-
sen efektin sitten tulisi olla, jotta efektiä voitaisiin
pitää ”riittävän” suurena? Tähän ei voida antaa mi-
tikkelissaan lauseeseen ”Surely, God loves the .06
almost as much as the .05”.
EFEKTIKOKO
NHST:a käytettäessä muodostetaan binäärinen
(tosi/epätosi) väite tarkastellusta ilmiöstä. Jotta
useissa tutkimuksissa kerättyä tietoa voitaisiin yh-
distää, olisi tarkoituksenmukaista että jokainen
tutkimus tuottaisi – mielellään vähintään välimat-
ka-asteikollisen – kvantifikaation tarkasteltujen
muuttujien välisestä yhteydestä. Tutkimustulosten
arvioimiseen tarvitaan siis sellaisia tunnuslukuja,
joiden avulla (i) voidaan tarkastella mitattujen
muuttujien välisen yhteyden voimakkuutta ja (ii)
voidaan yhdistää tuloksia yli tutkimusten. Tilasto-
tieteilijät ovat jo vuosia suositelleet, että NHST:n
lisäksi tutkimusraporteissa tulisi ilmoittaa jokin
havaitun efektin voimakkuutta paremmin kuvaava
luku, esimerkiksi MSE tai efektikoko (Chow,
1988). Kuitenkin vasta viides painos Publication
Manual of the American Psychological Asso-
ciation:sta (American Psychological Association,
2001) sisältää eksplisiittisen vaatimuksen efektiko-
kojen raportoimisesta.
Efektikoko voidaan määritellä usealla tavalla,
mutta tyypillisesti se on otoskoosta riippumaton
numeerinen estimaatti, joka kvantifioi ψ:n eli riip-
pumattoman muuttujan riippuvassa muuttujassa
aiheuttaman vaihtelun. Yleinen käytäntö on, että
negatiiviset arvot viittaavat efektiin, joka on vaih-
toehtoisen hypoteesin vastainen ja positiiviset sel-
laiseen, joka on vaihtoehtoisen hypoteesin suun-
tainen. Yleisimmin käytetyt efektikokostatistikat
perustuvat d:hen (Cohen, 1969), r:ään sekä Φ:hin
(Rosenthal, 1984; Rosenthal & Rubin, 2003), sekä
η:aan ja ω:aan (Olejnik & Algina, 2003). Nämä
voidaan jakaa kahteen kategoriaan: standardoi-
tuun keskiarvojen erotukseen (d) ja riippuvan ja
riippumattoman muuttujan väliseen assosiaatioon
perustuviin (r, Φ, η, ω) tunnuslukuihin.
Ryhmäkeskiarvoihin ja -keskihajontoihin
perustuvat efektikoon estimaatit: d, g ja ∆
Tarkastellaan aluksi d:tä ja siihen perustuvia efek-
tikoon estimaatteja. Cohenin d (signaalinkäsitte-
lyssä käytetään merkintää d’) ilmaisee efektin suu-
ruuden ryhmäkeskiarvojen standardoituna erotuk-
563
EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA
2
(1
)
P c
Z
P
P c
N
×
=
−
×
¦
¦
2
n
χ
§
·
¨
¸
¨
¸
©
¹
Z
r
N
=
2
2
t
r
t
df
=
+
F
r
F df
=
+
2
r
N
χ
=
1
2
µ µ
−
tään yksikäsitteistä vastausta. Efektikoon tilastol-
lista merkitsevyyttä ei tietenkään kannata ruveta
testaamaan, silloinhan täytyisi laskea taas toisen
kertaluvun efektikoko ”efektikoon p-arvolle” ja
niin edelleen. Yleensä käytetäänkin Cohenin
(1992) esittämiä suuntaa antavia arvoja. Tällöin
keskinkertaisen efektin suuruus on .5. Tämänsuu-
ruinen efekti näkyy jo aineistoa silmäilemällä. Pie-
ni efekti on suuruudeltaan .2 ja suuri vastaavasti .8.
Näitä suuntaa-antavia arvoja ei kuitenkaan tule
tulkita samaan tapaan kuin p-arvon kriittisiä rajo-
ja, vaan ne ovat ainoastaan efektin suuruuden tul-
kinnassa avuksi käytettäviä arvoja.
Korrelaatiokertoimeen perustuva efektikoon
estimointi
Cohenin d soveltuu käytettäväksi sellaisissa tutki-
musasetelmissa, joissa on tarkasteltu vain asetel-
man kahden solun välistä kontrastia
(1.10)
Lisäksi r voidaan estimoida pelkän p-arvon
avulla, jos muuta informaatiota ei ole käytettävissä.
Tällöin määritellään p-arvoa vastaava yksisuuntai-
sen testin Z-arvo ja lasketaan efektikoko seuraa-
vasti:
(1.11)
Jos vertailtavat ryhmät ovat riippumattomia, r
on yksinkertaisesti riippuvan muuttujan ja dum-
my-koodatun lohkotekijän välinen piste-biseriaa-
linen korrelaatio. Jos taas ryhmät eivät ole toisis-
taan riippumattomia, r on ryhmään kuulumisen ja
riippuvan muuttujan välinen osittaiskorrelaatio,
josta on ositettu toistettujen mittausten indikaat-
torimuuttujan vaikutus. R-tyyppinen efektikoko
voidaan määrittää myös silloin, jos tarkasteltavat
muuttujat ovat kategorisia. Jos tarkastellaan efek-
tin suuruutta 2x 2 -kontingenssitaulussa, niin Cra-
merin Φ-kerrointa
. Tä-
mä onkin tyypillisin kontrasti. Aina efektiä ei kui-
tenkaan määritellä kahden solukeskiarvon välisenä
erotuksena – esimerkiksi tarkasteltaessa kahden
jatkuvan muuttujan välistä assosiaatiota, Cohenin
d ei sovellu käytettäväksi efektikoon estimaattina.
Tämän vuoksi Rosenthal ja Rubin ovatkin ehdot-
taneet, että efekti määriteltäisiin riippuvan ja riip-
pumattoman muuttujan yhteisenä vaihteluna (Ro-
senthal, 1984; Rosenthal & Rubin, 2003). Tällöin
efektikoko määritellään muuttujien i ja j välisen
korrelaatiokertoimena r. Jos muuttujat i ja j ovat
numeerisia, r määritellään yksinkertaisesti muut-
tujien tyypistä riippuen Pearsonin tulomomentti-
kertoimena tai Spearmanin järjestyskorrelaatio-
kertoimena. Jos toinen muuttuja on kaksiluokkai-
nen ja toinen jatkuva, käytetään piste-biseriaalista
korrelaatiokerrointa. Voidaan osoittaa (Rosenthal
& DiMatteo, 2001), että r voidaan laskea myös jäl-
kikäteen t-arvoista, F-arvoista, joiden vapausastei-
den osoittajassa on 1 sekä yhden vapausasteen χ
2
-
arvoista:
(1.8)
(1.9)
voidaan käyttää r-tyyppi-
senä efektikoon estimaattina. Mielivaltaisessa
m x n –kontingenssitaulussa puolestaan kontrasti
voidaan laskea seuraavasti (Rosenthal & Rosnow,
1991, s. 538)
(1.12)
missä c on kontrastin painokerroin, P on sarakkeen
vertailtavien solujen [tai niiden yhdistelmien]
frekvenssien suhde ja N sarakkeen kokonaisfrek-
venssi.
Efektikoon estimoiminen r:n avulla tarjoaa
useita etuja d:hen perustuviin estimaatteihin ver-
rattuna. Suurin näistä lienee se, että r voidaan las-
kea useammanlaisissa asetelmissa kuin d. Toinen
huomattava etu on, että korrelaatioon perustuvana
efektikoon estimaattina r on standardoitu, se vaih-
564 Psykologia /5-6/05
N U M M E N M A A
/
2
/
ˆ
(
)
effect
effect
s solut
p
effect
effect
s solut
SS
df
MS
SS
N n df
MS
ω
−
=
+
−
2
/
ˆ
effect
p
effect
s solut
SS
SS
SS
η
=
+
2
ˆ
p
ω
2
ˆ
p
η
2
ˆ
η
2
ˆ
η
2
ˆη
2
efekti
σ
2
BS
σ
2
2
2
efekti
effect
effect
BS
σ
δ σ
σ
=
×
+
2
ˆ
p
ω
2
ˆ
p
η
2
ˆ
p
ω
2
ˆ
p
η
2
ˆ
p
ω
2
ˆ
p
η
2
ˆ
effect
total
SS
SS
η
=
2
2
4
d
r
d
=
+
2
2
1
r
d
r
=
−
telee aina välillä [-1,1]. Tällöin kaikkien mahdol-
listen r-tyyppisten efektikokojen yhdistäminen ja
vertaileminen on periaatteessa yksinkertaista.
Useissa tapauksissa r:n tulkinta on myös suoravii-
vaisempaa – siinä missä d:n, g:n ja ∆:n suuruus riip-
puu mitattujen muuttujien hajonnoista, r on yksin-
kertainen suhdeluku, joka ilmoittaa, kuinka paljon
yhteistä vaihtelua riippuvalla ja riippumattomalla
muuttujalla on. Efektikoot ovat kuitenkin vaih-
dannaisia – vastaavissa asetelmissa lasketut r ja d
voidaan tarvittaessa jälkeenpäin muuntaa toisik-
seen:
(1.13)
(1.14)
Samaan tapaan kuin d:hen perustuvien esti-
maattien, niin myös r:n suuruuden tulkintaan voi-
daan antaa suuntaviivoja. Käyttämällä kaavaa 1.14
saadaan Cohenin (1988) d:n suuruuksia vastaaviksi
r:n rajoiksi 0.1 (pieni efekti), 0.24 (keskisuuri efek-
ti) ja 0.37 (suuri efekti).
Efektikoon η- ja ω-estimaatit
Efektikoon η- ja ω-estimaatit ovat läheistä sukua
r-estimaateille. Toisin kuin r, η- ja ω-estimaatit il-
moittavat efektin suuruuden selitetyn varianssin ja
kokonaisvarianssin osamääränä (Olejnik & Algi-
na, 2003). R-estimaattien avulla voidaan tarkastel-
la pääasiassa yksinkertaisia kontrasteja, mutta η- ja
ω -estimaattien avulla voidaan arvioida myös
ANOVA:n päävaikutusten efektikoot. Koska
efekti määritellään nyt selitetyn varianssin osuute-
na kokonaisvarianssista, tulee myös käytetty tutki-
musasetelma huomioida efektikokoa laskettaessa.
Tarkastellaan aluksi koeasetelmaa, jossa kaikki te-
kijät ovat täysin satunnaistettuja. Tällöin efekti-
koon estimaattina käytettävä
määritellään yk-
sinkertaisesti tarkasteltavan kontrastin tai päävai-
kutuksen neliösumman SS
effect
ja yhteisneliösum-
man SS
total
osamääränä:
(1.15)
Tutkimuksessa tarkasteltavien tekijöiden luku-
määrä vaikuttaa kuitenkin tällä tavoin määritellyn
:n suuruuteen, koska jokaisen tekijän aiheutta-
ma vaihtelu vaikuttaa yhteisneliösummaan SS
total
(Olejnik & Algina, 2003). Tällöin täsmälleen sa-
maa ilmiötä tarkastelevissa tutkimuksissa pelkäs-
tään tekijöiden lukumäärä saattaa aiheuttaa ei-sa-
tunnaista vaihtelua :n estimaatteihin. Tämän
vuoksi efektikoon estimaattina kannattaa tällaises-
sa tapauksessa käyttää :tä (Cohen, 1973) tai
:tä (Keren & Lewis, 1979) jotka ovat vertailu-
kelpoisia eri tutkimusasetelmien yli. Käytettäessä
näitä estimaatteja tutkimusasetelmassa olevien,
tarkastelun ulkopuolella olevien tekijöiden vaiku-
tukset voidaan yksinkertaisesti osittaa pois efek-
tistä:
(1.16)
(1.17)
Näiden tunnuslukujen ongelma on kuitenkin
se, että täysin satunnaistetussa asetelmassa lohko-
tekijä pienentää SS
WG
:tä. Tällöin ja saat-
tavat olla paljon suurempia sellaisissa tutkimuk-
sissa missä on mukana lohkotekijä (Cohen, 1973).
Olejnik ja Algina (2003) suosittelevatkin, että täl-
laisissa asetelmissa käytettäisiin osittaisten - ja
-estimaattien sijaan yleistettyjä - ja
-es-
timaatteja, jotka ovat vertailukelpoisia yli eri tutki-
musasetelmien. Heidän esittämänsä efektikoko-
parametri on muotoa
(1.18)
missä on yksilöiden välinen variaatio, on
tarkasteltavan ANOVA-mallin havaittu efekti ja d
= 1, jos mallissa on vain yksi selitettävä muuttuja,
muulloin d = 0.
Koska tällä tavoin määriteltyjen efektikoon esti-
maattien laskukaavat ovat riippuvaisia käytetyistä
tutkimusasetelmissa, en esittele niitä tässä yhtey-
dessä vaan kehotan lukijaa tutustumaan Olejnikin
ja Alginan (2003) alkuperäisartikkeliin.
565
EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA
2
ˆ
G
ω
2
ˆ
G
η
1
1
log
2
1
r
e
r
Z
r
+
=
−
m
r
µ
EFEKTIKOON SOVELLUKSIA JA ONGELMIA
Efektikoon estimaatti kvantifioi ja standardoi tut-
kimuksessa havaitun ilmiön amplitudin. Koska
efektikoko ei myöskään ilmaise todennäköisyyttä
nollahypoteesin paikkansapitävyydelle eikä niiden
tulkitsemiseen tarvita arbitraarisia kriittisiä rajoja,
efektikokojen raportoimisella voidaan ratkaista
johdannossa esitetyt NHST:iin liittyvät ongelmat
ainakin tyydyttävästi. Tämän lisäksi efektikoon es-
timaateilla on myös muita käyttökelpoisia ominai-
suuksia, joista eräs hyödyllisimmistä on yhdistettä-
vyys. Useamman saman- tai erilaiseen tulokseen
päätyneiden tutkimusten p-arvojen yhdistäminen
ei lisää ilmiötä koskevaa tietoa kovinkaan paljon.
Tällaisesta lähestymistapaa käyttäen voidaankin
lähinnä laskea, kuinka moni tutkimus on tuottanut
tukea vaihtoehtoiselle- ja kuinka moni nollahypo-
teesille ja siten tehdä päätelmiä ilmiön toistuvuu-
desta. Jos tutkijalla on kuitenkin käytettävissään
kahdessa tai useammassa riippumattomassa tutki-
muksessa havaitut efektikoot, näiden yhdistelmä-
nä voidaan laskea painotettu yhdistetty efektikoko
efekti
m
. Tämän avulla voidaan arvioida kuinka voi-
makas riippumattoman ja riippuvan muuttujan vä-
linen yhteys on ollut, kun jokaisessa tutkimuksessa
havaittu efekti painotetaan tutkimuksen otoskool-
la ja tämän jälkeen efektikoot yhdistetään. Lisäksi
efekti
m
:lle voidaan laskea luottamusväli. Menettely
on erittäin käyttökelpoinen meta-analyyseissa.
Efektikokoja yhdistettäessä on yksinkertaisinta
käyttää r-estimaatteja. Tällöin jokainen r transfor-
moidaan Fisherin Z-r -muunnoksella
Jos efektikoot on laskettu tutkimuksista, joissa
on käytetty erilaisia koeasetelmia, menettely ei kui-
tenkaan ole yhtä triviaali. Lohkotekijöiden luku-
määrä nimittäin vaikuttaa r, η- ja ω-tyyppisten
efektikoon estimaattien laskemiseen. Vaikka ha-
vaitut ryhmäkeskiarvojen erotukset olisivatkin sa-
mansuuruiset kahdessa tutkimuksessa, efektit saat-
tavat olla erisuuruiset, koska asetelman yksittäisten
solujen varianssi on riippuvainen lohkotekijöiden
määrästä (Olejnik & Algina, 2003). Tällöin kan-
nattaakin laskea mieluummin - tai
esti-
maatti jokaiselle tutkimukselle, mutta näiden luot-
tamusvälien muodostaminen ei valitettavasti ole
yhtä yksinkertaista kuin r
m
:n tapauksessa.
Efektikoon avulla voidaan suorittaa helposti
myös voimalaskelmia (ks. Cohen, 1992), joiden
avulla voidaan estimoida kuinka suuri otoskoon
tulisi olla, jotta tietyn suuruinen efekti olisi tilastol-
lisesti merkitsevä. Odotettu efektin koko voidaan
arvioida tarkastelun kohteena olevaa ilmiötä selvit-
täneiden tutkimusraporttien perusteella yhdistä-
mällä efektikoot siten, kuten edellä esitettiin. Me-
nettely on käytännöllinen, sillä voimalaskelmien
avulla voidaan välttyä sekä liian pieniltä että tar-
peettoman suurilta otoksilta, ja voimalaskelmien
tekemistä voidaankin suositella rutiinitoimenpi-
teenä mitä tahansa tutkimusta suunniteltaessa.
Kääntäen efektikoon avulla on myös mahdollis-
ta laskea niin sanotun pöytälaatikkoefektin (file
drawer effect) suuruus (Rosenthal & DiMatteo,
2001). Tällä viitataan siihen, että tutkimuksia,
joissa nollahypoteesi jää voimaan, on tyypillisesti
hankala saada julkaistuksi. Siten raportoiduista
tutkimuksista lasketut r
m
:t ovat tyypillisesti :n
yliestimaatteja. Yksinkertainen – ja samalla myös
yksittäisten tutkimustulosten efektin suuruutta ar-
vioitaessa käyttökelpoinen menettely – on arvioi-
da, kuinka monta nollatulosta tuottavaa tutkitta-
vaa täytyisi testata, jotta havaittu efektikoko alit-
taisi ennalta määrätyn rajan (Rosenthal, 1995) tai
että p-arvo ylittäisi asetetun alfatason (Nummen-
maa & Niemi, 2004). Jälkimmäisessä lähestymis-
tavassa määritetään pienin havaittuun dataan yh-
distettävä n nollatuloksen tuottavia koehenkilöitä
jolla 95 %:n luottamusväli r
m
:lle käsittää nollan.
Tällöin suoritetaan eräänlainen käänteinen voima-
laskelma jonka avulla on käytännöllistä arvioida
kuinka yleistettävinä tutkimuksessa havaittuja tu-
loksia voidaan pitää.
(1.19)
lasketaan painotettu Zr-keskiarvo ja transformoi-
daan tämä r-Z -muunnoksen avulla r
m
:ksi. Lopuk-
si voidaan vielä laskea 95 %:n luottamusväli r
m
:lle
(Rosenthal & Rubin, 1989). Menettely on erittäin
käyttökelpoinen, koska nyt voidaan laskea r
m
useal-
le eri käsittelylle ja luottamusvälejä tarkastelemalla
voidaan arvioida poikkeavatko eri käsittelyjen
tuottamat efektit toisistaan (Raghunathan, Ro-
senthal, & Rubin, 1996). Tällaista menettelyä
käyttäen tieteellinen psykologinen tieto kumuloi-
tuu aidosti, numeerisesti, eikä ainoastaan laadulli-
sesti.
-
566 Psykologia /5-6/05
N U M M E N M A A
2
ˆ
G
ω
2
ˆ
G
η
2
ˆ
G
ω
2
ˆ
G
η
2
ˆ
G
ω
2
ˆ
G
η
Mitä efektikoon estimaattia pitäisi käyttää?
Tutkimusraporttien tulkitsemisen kannalta on
ongelmallista, että toistaiseksi ei ole saavutettu
yksimielisyyttä siitä, mitä efektikoon estimaattia
raportoinnissa tulisi käyttää. Tämä ei kuitenkaan
ole ylitsepääsemätön ongelma, sillä d-ja r-tyyppi-
set efektikoot voidaan kuitenkin muuntaa jälkeen-
päin toisikseen. Jos mahdollista, yleensä kannat-
taisi kuitenkin käyttää - tai
-estimaattia,
koska tällaiset estimaatit voidaan laskea useimmis-
sa tutkimusasetelmissa ja siten efektikokojen esti-
maatit ovat vertailukelpoisia yli erilaisten tutki-
musasetelmien. Valitettavasti - ja
- e s -
timaattien ongelma kuitenkin on, että heikot efek-
tit saattavat hävitä kun efektikoon estimaatti neli-
öidään.
Jos tarkasteltava efekti on pieni eikä - tai -
estimaattia haluta käyttää, suosittelen efektikoon
estimaatiksi r:ää ennemmin kuin d-perustaista es-
timaattia jo siitäkin syystä, että r on helpommin
tulkittavissa. Siinä missä d ilmoittaa efektin suu-
ruuden keskihajonnan yksikkönä, saadaan r:n
avulla helpommin sovellettavissa olevaa tietoa.
Tarkastellaan esimerkkinä Baskinin tutkimusryh-
män (2003) meta-analyysia, jossa vertailtiin plase-
boterapian ja ”oikean” psykoterapian vaikutta-
vuuksia. Tutkimusta varten vertailtiin kolmea eri
ryhmää psykoterapioita: (i) ”oikeita” psykoterapi-
oita, (ii) ”oikeiden” psykoterapioiden kanssa ra-
kenteellisesti erilaisia plaseboterapioita ja (iii) ”oi-
keiden” psykoterapioiden kanssa rakenteellisesti
samanlaisia plaseboterapioita. Tutkimuksessa ha-
vaittiin, että d kontrastille i-ii oli 0.47 ja kontrastil-
le i-iii 0.149. Keskihajontaan perustuvien efekti-
koon estimaattien perusteella ”oikeat” terapiat vai-
kuttaisivat siis toimivan jossain määrin paremmin
kuin kumpikaan plaseboterapioista. Jos d-tyyppi-
set efektikoot muutetaan r:ksi niin havaitaan, että
vastaavat efektikoon estimaatit ovat 0.23 ja 0.07.
Kun ”oikean” psykoterapian vaikuttavuutta verra-
taan sen kanssa rakenteellisesti samanlaiseen pla-
seboterapiaan, niin koehenkilön saaman terapian
tyypin (oikea / plasebo) havaitaan selittävän vain 7
% hoitotuloksesta. Tulosten soveltajalle r-tyyppi-
nen estimaatti on siten intuitiivisesti mielekkääm-
pi tapa tulkita tutkimuksessa havaittu psykoterapi-
an vaikuttavuus.
YHTEENVETO: EFEKTIKOKOJEN
TULKITSEMINEN JA RAPORTOIMINEN
Vaikka tilastotieteilijät ovat jo pitkään kehotta-
neet käyttäytymistieteiden tutkijoita täydentä-
mään tai korvaamaan NHST:n muilla menette-
lyillä (Chow, 1988), NHST on edelleen vallitseva
tapa hypoteesien testaamiseen psykologiassa.
Efektikoon rutiininomainen raportoiminen on al-
kanut muodostua käytännöksi vasta viime vuosi-
na, ja kaikki lehdet eivät sitä vieläkään edellytä.
Tutkimuksen efektikoko kannattaa kuitenkin las-
kea ja raportoida, vaikka kohdelehden käytäntö ei
sitä edellyttäisikään. Efektikokojen avulla saadaan
tutkimusaineistosta monipuolisempaa informaa-
tiota kuin NHST:lla. Siinä missä NHST antaa
binäärisesti tukea joko nolla- tai vaihtoehtoiselle
hypoteesille, efektikoko puolestaan antaa suoraan
numeerista informaatiota tutkittavien muuttujien
välisestä yhteydestä.
Pelkkä efektikoko ei kuitenkaan riitä tutkimus-
tulosten raportoimiseen. Efektikoko kvantifioi
tutkittavan ilmiön amplitudin otoksessa, mutta
sen avulla ei voi päätellä, aiheutuiko havaittu efekti
sattumalta, ts. kuinka todennäköistä on, että vas-
taava efekti havaitaan toisessa riippumattomassa
aineistossa. Tämän vuoksi efektikoon rinnalle on
esitetty myös toisentyyppisiä estimaatteja, joissa
tutkimustulosten arvioinnin kannalta keskeinen
tieto voitaisiin esittää yhden statistikan avulla.
Esimerkiksi Killeenin (2005) r
rep
estimoi todennä-
köisyyden sille, että havaitun efektin kanssa sa-
mansuuntainen efekti toistuu riippumattomassa
tutkimuksessa jossa koehenkilömäärä ja otantavir-
he ovat alkuperäisen tutkimuksen kaltaisia.
Efektikoko ei myöskään ole täydellinen esti-
maatti ilmiöiden välisestä riippuvuudesta. Ensin-
näkin, efektikoko (eli riippuvan ja riippumatto-
man muuttujan välisen yhteyden voimakkuus) ei
kaikissa tilanteissa ole ekvivalentti teoreettisten
konstruktien välillä vallitsevan assosiaation kanssa
(Chow, 1988) eikä sitä pidä myöskään tulkita
näin. Lisäksi, vaikka efektikoko onkin informatii-
vinen tapa esittää tutkimuksen tulokset, efektiko-
ko ei välttämättä ole tutkimustulosten soveltajalle
merkityksellistä tietoa (Olejnik & Algina, 2000).
Esimerkiksi depressiolääkkeitä kustantavaa tahoa
ei kiinnosta tietää, että lääkkeiden vs. plasebon
567
EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA
käyttö selittää 50 % hoidettavien potilaiden dep-
ression variaatiosta. Rahoittajaa kiinnostaa, mitä
hyötyä depressiolääkkeiden käyttämisestä on ollut
näille henkilöille verrattuna jonossa odottamiseen.
Ongelmista huolimatta suosittelen, että efekti-
koon estimaatteja käytettäisiin systemaattisesti
tutkimustuloksia raportoitaessa. Efektikoon esti-
maatin ohella olisi aina kuitenkin suoritettava joko
efektikoon luottamusvälin arviointi (Loftus, 1996;
Steiger, 2004), aineiston huolellinen graafinen
esittäminen (Loftus, 1996) sekä vahva NHST
(Cohen, 1994). Jos efektikoon estimaatit valitaan
huolellisesti tarkoitustaan vastaavaksi, tulkitaan
asianmukaisesti ja niiden rinnalla esitetään riittä-
västi täydentävää informaatiota, psykologiassa voi-
daan muodostaa todellisia teorioita kumuloituvan,
kvantitatiivisen tutkimustiedon perusteella.
Artikkeli on saapunut toimitukseen 8.8.2005 ja hyväk-
sytty julkaistavaksi 29.9.2005.
Keren, G. & Lewis, C. (1979). Partial omega squared for
ANOVA designs. Educational & Psychological Measure-
ment, 39, 119–128.
Killeen, P. R. (2005). An Alternative to Null-Hypothesis Sig-
nificance Tests. Psychological Science, 16, 345–353.
Kirk, R. E. (1996). Practical significance: A concept whose
time has come. Educational and Psychological Measure-
ment, 56, 746–759.
Loftus, G. R. (1996). Psychology will be a much better science
when we change the way we analyze data. Psychological
Science, 5, 161–171.
Muthèn, B., & Muthèn, L. K. (2000). Integrating person-
centered and variable-centered analyses: Growth mixture
modeling with latent trajectory classes. Alcoholism: Clini-
cal & Experimental Research, 24, 882–891.
Nummenmaa, L. (2004). Käyttäytymistieteiden tilastolliset
menetelmät. Vammala: Tammi.
Nummenmaa, L., & Niemi, P. (2004). Inducing affective sta-
tes with success-failure manipulations: A meta-analysis.
Emotion, 4, 207–214.
Olejnik, S., & Algina, J. (2003). Generalized eta and omega
squared statistics: Measures of effect size for some com-
mon research designs. Psychological Methods, 8, 434–
447.
Olejnik, S. & Algina, J. (2000). Measures of effect size for
comparative studies: Applications, interpretations, and li-
mitations. Contemporary Educational Psychology, 25,
241–286.
Popper, K. R. (1959). The logic of scientific discovery. New
York: Basic Books.
Raghunathan, T. E., Rosenthal, R. & Rubin, D. B. (1996).
Comparing correlated but nonoverlapping correlations.
Psychological Methods, 1, 178–183.
Rosenthal, R. (1984). Meta-analytic procedures for social re-
search. Beverly Hills: Sage Publications.
Rosenthal, R. (1995). Writing meta-analytic reviews. Psycho-
logical Bulletin, 118, 183–192.
Rosenthal, R. & DiMatteo, M. R. (2001). Meta analysis: Re-
cent developments in quantitative methods for literature
reviews. Annual Review of Psychology, 52, 59–82.
Rosenthal, R. & Rosnow, R. L. (1991). Essentials of behavio-
ral research: Methods and data analysis. New York: Mc-
Graw-Hill.
Rosenthal, R. & Rubin, D. B. (2003). r-sub(equivalent): A
simple effect size indicator. Psychological Methods, 8,
492–496.
Rosenthal, R. & Rubin, D. B. (1989). Effect size estimation
for one-sample multiple-choice-type data: Design, analy-
sis, and meta-analysis. Psychological Bulletin, 106, 332–
337.
Steiger, J. H. (2004). Beyond the F test: Effect size confidence
intervals and tests of close fit in the analysis of variance and
contrast analysis. Psychological Methods, 9, 164–182.
Stone, J. V. (2002). Independent component analysis: An
introduction. Trends in Cognitive Sciences, 6, 59-64.
Tukey, J. W. (1991). The philosophy of multiple comparisons.
Statistical Science, 6, 100–116.
Lähteet
American Psychological Association. (2001). Publication ma-
nual of the American Psychological Association (5.th ed.).
Washington: American Psychological Association.
Baskin, T. W., Tierney, S. C., Minami, T. & Wampold, B. E.
(2003). Establishing specificity in psychotherapy: A meta-
analysis of structural equivalence of placebo controls. Jour-
nal of Consulting & Clinical Psychology, 71, 973–979.
Bayes, T. (1764). An essay toward solving a problem in the
doctrine of chances. Philosophical Transactions of the
Royal Society of London, 53, 370–418.
Chow, S. L. (1988). Significance test or effect size? Psycholo-
gical Bulletin, 103, 105–110.
Cohen, J. (1994). The earth is round (p<.05). American
Psychologist, 49, 997–1003.
Cohen, J. (1992). A power primer. Psychological Bulletin,
112, 155–159.
Cohen, J. (1973). Eta-squared and partial eta-squared in fixed
factor ANOVA designs. Educational and Psychological
Measurement, 33, 107–112.
Cohen, J. (1969). Statistical power analysis for the behavioral
sciences. New York: Academic Press.
Fisher, R. A. & Bennett, J. H. (1990). Statistical methods,
experimental design, and scientific inference. New York:
Oxford University Press.
Gill, J. (2002). Bayesian methods: A social and behavioral
sciences approach. Boca Raton: Chapman & Hall/CRC.
Glass, G. V., McGaw, B.,& Smith, M. L. (1981). Meta-ana-
lysis in social research. Beverly Hills: Sage Publications.
Dostları ilə paylaş: |