Lauri Nummenmaa Efektikoko psykologisessa tutkimuksessa



Yüklə 225,34 Kb.
Pdf görüntüsü
tarix11.01.2017
ölçüsü225,34 Kb.
#5100

559

Lauri Nummenmaa

Efektikoko psykologisessa tutkimuksessa

Psykologisessa tutkimuksessa tilastollinen päätök-

senteko perustuu tyypillisesti Fisherin määrittele-

miin alfatasoihin ja nollahypoteesin merkitsevyys-

testaamiseen (NHST). Tällainen menettely ei

kuitenkaan ilmaise mitään tutkimuksessa muuttuji-

en välisen yhteyden voimakkuudesta. Lisäksi

NHST:n tulosten tulkinta on ongelmallista.  Käsitte-

len tässä katsauksessa yleisimpiä ongelmia ja

päättelyvirheitä, jotka liittyvät NHST:n soveltamiseen

tutkimusaineiston analyysissa. Vertailen NHST:n

vaihtoehdoksi ja täydennykseksi esitettyjä efekti-

koon arvioimiseen perustuvia tunnuslukuja (dg

,



r

Φ



η

 ja 



ω

) ja arvioin niiden soveltuvuutta psykolo-

gisen tutkimuksen tulosten esittämiseen. Esitän

myös suosituksen efektikoon estimaattien käyttämi-

sestä tutkimustuloksia raportoitaessa.

Psykologinen tutkimus perustuu numeerisessa

muodossa olevan tutkimusaineiston analysoimi-

seen tilastollisten menetelmien avulla.  Tilastollis-

ten menetelmien tavoitteena on tyypillisesti tar-

kastella aineistossa olevaa signaali/kohina -suhdet-

ta (Killeen, 2005). Signaalilla viitataan tutkittavien

muuttujien väliseen mahdolliseen assosiaatioon ja

kohinalla otanta- ja mittausvirheestä johtuvaan sa-

tunnaisvaihteluun. Tilastollisten menetelmien

avulla on siten mahdollista arvioida, johtuuko kah-

den muuttujan havaittu assosiaatio todellakin

muuttujien välisestä yhteydestä vai onko se aiheu-

tunut sattumalta. Psykologiassa sovellettavat tilas-

tolliset analyysimenetelmät ovat kehittyneet vii-

meisten kahdenkymmenen vuoden aikana huo-

mattavasti. Esimerkiksi Bayesilaisten menetelmi-

en käyttäytymistieteelliset sovellukset (Gill, 2002),

latentit kasvukäyrämallit (Muthèn & Muthèn,

2000) ja riippumattomien komponenttien analyysi

(Stone, 2002) ovat mahdollistaneet tutkimusai-

neistojen entistä tarkemman ja monipuolisemman

kuvailemisen sekä analysoimisen.

Psykologiassa käytettävät tilastollisen päättelyn

periaatteet eivät ole kuitenkaan kehittyneet yhtä

nopeasti.  Yleisimmin ilmiöitä koskevaan tilastolli-

seen päättelyyn sovelletaan edelleen kiistanalaista

ja monessa suhteessa ongelmallista menettelyä,

joka tunnetaan nimellä nollahypoteesin merkitse-

vyystestaus (Null Hypothesis Significance Tes-

ting, NHST). NHST:lle on esitetty lukuisia vaih-

toehtoisia ja täydentäviä menettelyitä, joiden avul-

la tutkimusaineistoa koskeva päättely voidaan suo-

rittaa tarkemmin ja paremmin. Nämä menettelyt

eivät kuitenkaan ole yleistyneet kuin vasta viime

vuosien aikana. Käsittelen tässä katsauksessa kes-

keisempiä NHST-menettelyyn liittyviä ongelmia

ja arvioin sille esitettyjä vaihtoehtoisia ja täydentä-

viä menetelmiä, efektikoon estimaatteja.

NHST JA SIIHEN LIITTYVÄT ONGELMAT

Fisher (Fisher & Bennett, 1925 / 1990) esitti nol-

lahypoteesin merkitsevyystestaamisen periaatteen



560 Psykologia /5-6/05

N U M M E N M A A

1

2

0



µ µ

≠  



1

1

2



2

j

j

c

c

c

ψ

µ



µ

µ

=



+

+





 

0

0



0

(

)



(

)

( )



P D H

P H D

P H

|



=

 

(



)

(

)



( )

P A B

P B A

P B

|



=

 

1



2

0

µ µ



=  


1

2

0



µ µ

=  



1

2

0



j

c c

c

+ +


=



 



sellaisena kuin se nykyään tunnetaan. Jos koease-

telmassa on j solua, niin kontrasti ψ määritellään

painokertoimien c

j

 avulla seuraavasti:

(1.1)

missä


  Testin p-arvo määritellään tällöin laskemalla

määrätylle kontrastille ψ, kuinka todennäköistä

on saada tilastollinen tunnusluku joka on suurem-

pi kuin |ψ| välillä  [ |ψ|,∞]. Tämä siis ilmaisee to-

dennäköisyyden P(x _ ψ | H

0

). Merkitään dataa



D:llä, jolloin yleisessä tapauksessa tarkastellaan

todennäköisyyttä P(D | H



0

). NHST ilmoittaa si-

ten todennäköisyyden sille, että otannan avulla

saadaan havaitun kaltainen data, jos nollahypotee-

si pitää paikkansa. Tällaisessa muodossa esitetyn

NHST:n soveltamiseen liittyy kuitenkin neljä

suurta ongelmaa, joita käsittelen lyhyesti ennen

kuin siirryn tarkastelemaan NHST:lle vaihtoeh-

toisia lähestymistapoja. Ongelmat ovat

1. NHST:ssa testataan todennäköisyyttä P(D |



H

0

), eikä tutkijan kannalta kiinnostavampaa to-

dennäköisyyttä P(H

0 

D) (Cohen, 1994).

2. Yleisimmin testattava nollahypoteesi (H

0

:

) ei pidä koskaan paikkaansa (Tukey,



1991).

3. NHST ei kvantifioi havaitun ilmiön amplitu-

dia ja on siten suboptimaalinen menettely teorian-

muodostuksessa (Loftus, 1996).

4. Alfatason valinta on arbitraarinen (Glass,

McGaw, & Smith, 1981).

H

0

) ≠ P(H



0 

D). Jotta voisimme NHST:n tulos-

ten perusteella laskea posteriorisen todennäköisyy-

den P(H



0 

D), meidän tulee käyttää Bayesin teo-

reemaa (Bayes, 1764). Bayesin teoreeman mukaan

(1.2)


mikä siis NHST:n tapauksessa tarkoittaa

Jotta voisimme laskea posteriorisen todennä-

köisyyden P(H

D), meidän tulisi tietää priorinen

todennäköisyys  P(H

0

), eli ennen tutkimusta tie-

dossa ollut todennäköisyys sille, että nollahypotee-

si pitää paikkansa. Yleensä tämä ei kuitenkaan ole

tiedossa, muutenhan NHST:n tekeminen ei olisi

lainkaan tarpeellista. Bayesilaisessa päättelyssä (ks.

esim. Gill, 2002) ongelma ratkaistaan siten, että

priorinen todennäköisyys (tai sen jakauma) asete-

taan kaiken mahdollisen käytettävissä olevan prio-

risen tiedon perusteella ja testisuureen posteriori-

nen jakauma määritellään tämän perusteella. Tätä

tietoa voidaan taas vastaavasti käyttää määriteltä-

essä prioreja seuraavassa tutkimuksessa.

Milloin nollahypoteesi voi olla oikein

asetettu?

Jos emme kuitenkaan [syystä tai toisesta] halua

siirtyä Bayesilaiseen tilastolliseen päättelyyn, Co-

hen (1994) suosittelee että NHST:ta käytettäisiin

ainoastaan sellaisessa ”vahvassa” muodossa kuin

Popper (1959) on esittänyt. Tällöin tieteellisen

teorian tulee edetä yrityksinä kumota olemassa ole-

via teorioita, mikä onkin mahdollista NHST:n

avulla. Sen sijaan NHST:n avulla ei ole mahdollis-

ta todistaa teorioita oikeaksi hylkäämällä nollahy-

poteeseja. Tämä on ilmeistä jos ajatellaan, millaisia

kontrasteja ψ  testattaessa yleisimmin käytetyt nol-

la- (H

0

:

P

(D | H

0

) ≠ P(H



0

 

D)



Fisherin tapa nollahypoteesien testaamiseen on

intuitiivisesti mielekäs. NHST:n tulosten tulkitse-

minen on kuitenkin ongelmallista. NHST:ssa las-

ketaan P(D | H



0

), eli todennäköisyys sille, että data

havaitaan sillä ehdolla, että nollahypoteesi on ase-

tettu oikein. Tämä ei kuitenkaan ole yleensä tutki-

muksen kannalta mielenkiintoista – tutkijaa kiin-

nostaa paljon useammin selvittää, mikä on P(H



|

D), eli mikä on todennäköisyys sille, että nollahy-

poteesi on voimassa, jos data on havaitun kaltai-

nen. On huomattava, että intuition vastaisesti P(D

) ja vaihtoehtoinen hypoteesi

(H



1

:

) tyypillisesti ovat. Tällä tavoin



määritelty nollahypoteesi on triviaalisti epätosi ja

vaihtoehtoinen hypoteesi triviaalisti tosi. Lähes-

tulkoon minkä tahansa kahden jakauman odotus-

arvoissa havaitaan todennäköisesti eroa, jos mitta-

ustarkkuus on riittävän suuri. Tällaisen nollahypo-

teesin voidaan osoittaa olevan aina väärin asetettu.

Määritellään  f(x)=normaalijakauman kertymä-


561

EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA

3

x

µ

− =



 

2

x

µ

− =


 

1

x

µ

− =


 

lim ( ) 1

lim ( ) 1

x

x

f x

g x

→∞

→∞



=

=

 



1

p arvo


efekti otoskoko

=



×

 

n



x

Z

σ

µ



=

 



funktio ja g(x)=t-jakauman kertymäfunktio. Täl-

löin


(1.3)

Tämä siis tarkoittaa, että jos kaikki muut tekijät

pysyvät vakioina, niin em.  kertymäfunktioiden

arvo lähestyy ykköstä kun otoskoko lähestyy ääre-

töntä. Tarpeeksi suurella otoskoolla siis mikä ta-

hansa keskiarvojen ero on tilastollisesti merkitsevä.

Käytettäessä NHST:ta tällä tavoin asetetun nolla-

hypoteesin kumoamiseen voidaan itse asiassa aino-

astaan osoittaa, että käytetty tutkimusasetelma oli

riittävän vahva havaitsemaan olemassa olevan kes-

kiarvojen eron (Kirk, 1996).

NHST ei kvantifioi tutkimuksessa havaitun

ilmiön voimakkuutta

Useimmissa käytetyistä tilastollisissa testeissä

p-arvo riippuu sekä signaali/kohina -suhteesta että

otoskoosta. Intuitiivisesti voidaan ajatella, että

NHST:ssa  p-arvot muodostuvat seuraavasti

(Nummenmaa, 2004):

(1.4)

Tästä siis seuraa, että suurissa otoksissa pienet-



kin efektit ovat tilastollisesti merkitseviä ja pienissä

otoksissa efektin on oltava suuri, jotta se olisi tilas-

tollisesti merkitsevä. Tarkastellaan esimerkkinä

yhden otoksen Z-testiä

(1.5)

Testisuure Z noudattaa normaalijakaumaa pa-



rametrein [0, 1]. Sovitaan, että. Tarkastellaan nyt,

miten testin p-arvo muuttuu otoskoon funktiona

kun

Kuva 1. NHST:n p-arvon muuttuminen otoskoon



ja

(1),


(2)

(3)


(Kuva 1). Kun keskiarvojen erotus on pieni (tässä

1), ei p-arvosta tule tilastollisesti merkitsevää

(<.05) edes viidenkymmenen henkilön otoksella.

Kun taas keskiarvojen erotus on suuri (tässä 3), niin

keskiarvojen erotuksesta tulee tilastollisesti mer-

kitsevä jo alle kahdenkymmenen hengen otoksella.



P-arvot ovat siis riippuvaisia sekä efektin koosta

että otoskoosta, mutta p-arvoissa nämä kaksi tie-

toa tiivistetään yhteen tunnuslukuun. Koska tun-

nusluvun suuruus riippuu efektin suuruuden lisäk-

si myös otoskoosta, NHST:ta käytettäessä on siten

suuri riski hyväksyä efekti, jonka voimakkuus on

triviaali (Chow, 1988). Kääntäen on myös mah-

dollista hylätä voimakkuudeltaan suuri efekti riit-

tämättömän otoskoon takia (Kirk, 1996). Koska

yksittäisen tutkimuksen otoskoko on mielivaltai-

nen, pelkän p-arvon raportoiminen ei siis riitä.

Alfatasot ovat arbitraarisia

Eräs useimmin NHST:ta kohtaan esitetyistä kri-

tiikeistä on alfatasojen arbitraarisuus (Kirk, 1996).

NHST:ta käytettäessä ilmiö ikään kuin muuttuu

todeksi, kun p-arvo alittaa sovitun kriittisen rajan –

tyypillisesti .05:n, mutta rajan asettamiselle ei ole

objektiivista perustelua. On siis mahdollista, että

kaksi tutkijaa voi havaita samanlaisissa koeasetel-

missa täsmälleen saman keskiarvojen erotuksen,

mutta erilaisista otoskoista johtuen he saavat

NHST:n tuloksena p-arvot .07 ja .05. NHST:a

käytettäessä toinen tutkijoista siis saa tutkimuksel-

laan tukea nolla- ja toinen vaihtoehtoiselle hypo-

teesille. Mutta, jos kummatkin tutkijat olisivatkin

valinneet alfatasoksi .01:n, niin molemmat olisivat

hylänneet vaihtoehtoisen hypoteesin. Koska alfa-

tasoihin perustuvan päättelyn lopputulos riippuu

sekä otoskoosta että valitusta alfatasosta, Rosen-

thal ja Rubin (1989) tiivistävätkin alfatasojen mie-

lekkyyden klassisessa Psychological Bulletin -ar-

10

20



30

40

50



.2

.4

.6



.8

1

1



2

3

x



x

x

P-arvo


Otoskoko

funktiona.



562 Psykologia /5-6/05

N U M M E N M A A

efekti

s

ψ

=



 

1

2



1

2

1



2

Cohenin 


Hegdesin  

Glassin 



p

p

c

x

x

d

s

x

x

g

S

x

x

S

=



∆ =



 

sena. Yleisessä muodossa d-tyyppinen efektikoko

ilmaistaan seuraavasti:

(1.6)


missä ψ on tarkasteltava kontrasti ja s on hajonta-

termi, johon kontrastia verrataan. Riippuen koe-

asetelmasta  s  voidaan määritellä useammallakin

tavalla, ja jokainen määrittelyistä johtaa erilaiseen

efektikoon estimaattiin. Näistä yleisimmin käyte-

tyt (Olejnik & Algina, 2000) ovat (i) vertailtavien

solujen yhdistetty keskihajonta s

p

 (Cohenin d), (ii)

kaikkien asetelman solujen yhdistetty keskihajon-

ta S



p

 (Hedgesin g) ja kontrolliryhmän keskihajonta



S

c

 (Glassin ∆):

(1.7)

Jos koe- ja kontrolliryhmien varianssien yhtä-



suuruusoletus on voimassa, sekä dg että ∆ ovat

yhtä suuria. Jos oletus ei ole voimassa, tutkijan tu-

lee valita sellainen hajonnan estimaatti, joka kuvaa

kontrastin tarkoituksenmukaista mittayksikköä

käyttäen.  Jos käytetään kontrolliryhmän keskiha-

jontaa (∆) tai kaikkien solujen yhdistettyä keski-

hajontaa (g), on efektikoon nimittäjään tuleva ha-

jontatermi sama kaikissa mahdollisissa kontras-

teissa ja kontrasteille lasketut efektikoot ovat kes-

kenään vertailukelpoisia. Haittapuolena kuitenkin

on se, että varianssitermi ei välttämättä kuvaa tar-

kasteltavan kontrastin hajontaa kovinkaan hyvin.

Jos taas hajontatermi lasketaan kontrastikohtai-

sesti, kuvaa hajontatermi paremmin jokaista yksit-

täistä kontrastia, mutta eri kontrasteille lasketut

efektikoot eivät olekaan enää vertailukelpoisia

keskenään.

Cohenin  d:hen perustuvien estimaattien eräs

ongelma on, että periaatteessa ne voivat vaihdella

välillä [−∞, ∞]. Tyypillisissä tutkimuksissa d-pe-

rustaisten estimaattien vaihteluväli rajoittuu kui-

tenkin noin [-1, 1]:een. Kuinka suuri d-perustai-

sen efektin sitten tulisi olla, jotta efektiä voitaisiin

pitää ”riittävän” suurena? Tähän ei voida antaa mi-

tikkelissaan lauseeseen ”Surely, God loves the .06

almost as much as the .05”.

EFEKTIKOKO

NHST:a käytettäessä muodostetaan binäärinen

(tosi/epätosi) väite tarkastellusta ilmiöstä. Jotta

useissa tutkimuksissa kerättyä tietoa voitaisiin yh-

distää, olisi tarkoituksenmukaista että jokainen

tutkimus tuottaisi – mielellään vähintään välimat-

ka-asteikollisen – kvantifikaation tarkasteltujen

muuttujien välisestä yhteydestä. Tutkimustulosten

arvioimiseen tarvitaan siis sellaisia tunnuslukuja,

joiden avulla (i) voidaan tarkastella mitattujen

muuttujien välisen yhteyden voimakkuutta ja (ii)

voidaan yhdistää tuloksia yli tutkimusten. Tilasto-

tieteilijät ovat jo vuosia suositelleet, että NHST:n

lisäksi tutkimusraporteissa tulisi ilmoittaa jokin

havaitun efektin voimakkuutta paremmin kuvaava

luku, esimerkiksi MSE  tai  efektikoko  (Chow,

1988). Kuitenkin vasta viides painos Publication

Manual of the American Psychological Asso-

ciation:sta (American Psychological Association,

2001) sisältää eksplisiittisen vaatimuksen efektiko-

kojen raportoimisesta.

Efektikoko voidaan määritellä usealla tavalla,

mutta tyypillisesti se on otoskoosta riippumaton

numeerinen estimaatti, joka kvantifioi ψ:n eli riip-

pumattoman muuttujan riippuvassa muuttujassa

aiheuttaman vaihtelun. Yleinen käytäntö on, että

negatiiviset arvot viittaavat efektiin, joka on vaih-

toehtoisen hypoteesin vastainen ja positiiviset sel-

laiseen, joka on vaihtoehtoisen hypoteesin suun-

tainen. Yleisimmin käytetyt efektikokostatistikat

perustuvat d:hen (Cohen, 1969),  r:ään sekä Φ:hin

(Rosenthal, 1984; Rosenthal & Rubin, 2003), sekä

η:aan ja ω:aan (Olejnik & Algina, 2003). Nämä

voidaan jakaa kahteen kategoriaan: standardoi-

tuun keskiarvojen erotukseen (d) ja riippuvan ja

riippumattoman muuttujan väliseen assosiaatioon

perustuviin (r, Φ, η, ω) tunnuslukuihin.

Ryhmäkeskiarvoihin ja -keskihajontoihin

perustuvat efektikoon estimaatit: dg ja ∆

Tarkastellaan aluksi d:tä ja siihen perustuvia efek-

tikoon estimaatteja.  Cohenin d (signaalinkäsitte-

lyssä käytetään merkintää d’) ilmaisee efektin suu-

ruuden ryhmäkeskiarvojen standardoituna erotuk-


563

EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA

2

(1

)



P c

Z

P

P c

N

×

=



×

¦



¦

 

2



n

χ

§



·

¨

¸



¨

¸

©



¹

 

Z



r

N

=

 



2

2

t



r

t

df

=

+



 

F

r

F df

=

+



 

2

r



N

χ

=



 

1

2



µ µ

−  


tään yksikäsitteistä vastausta. Efektikoon tilastol-

lista merkitsevyyttä ei tietenkään kannata ruveta

testaamaan, silloinhan täytyisi laskea taas toisen

kertaluvun efektikoko ”efektikoon p-arvolle” ja

niin edelleen. Yleensä käytetäänkin Cohenin

(1992) esittämiä suuntaa antavia arvoja. Tällöin

keskinkertaisen efektin suuruus on .5. Tämänsuu-

ruinen efekti näkyy jo aineistoa silmäilemällä. Pie-

ni efekti on suuruudeltaan .2 ja suuri vastaavasti .8.

Näitä suuntaa-antavia arvoja ei kuitenkaan tule

tulkita samaan tapaan kuin p-arvon kriittisiä rajo-

ja, vaan ne ovat ainoastaan efektin suuruuden tul-

kinnassa avuksi käytettäviä arvoja.

Korrelaatiokertoimeen perustuva efektikoon

estimointi

Cohenin d soveltuu käytettäväksi sellaisissa tutki-

musasetelmissa, joissa on tarkasteltu vain asetel-

man kahden solun välistä kontrastia

(1.10)

Lisäksi  r  voidaan estimoida pelkän p-arvon



avulla, jos muuta informaatiota ei ole käytettävissä.

Tällöin määritellään p-arvoa vastaava yksisuuntai-

sen testin Z-arvo ja lasketaan efektikoko seuraa-

vasti:


(1.11)

Jos vertailtavat ryhmät ovat riippumattomia, r

on yksinkertaisesti riippuvan muuttujan ja dum-

my-koodatun lohkotekijän välinen piste-biseriaa-

linen korrelaatio. Jos taas ryhmät eivät ole toisis-

taan riippumattomia, r on ryhmään kuulumisen ja

riippuvan muuttujan välinen osittaiskorrelaatio,

josta on ositettu toistettujen mittausten indikaat-

torimuuttujan vaikutus. R-tyyppinen efektikoko

voidaan määrittää myös silloin, jos tarkasteltavat

muuttujat ovat kategorisia. Jos tarkastellaan efek-

tin suuruutta 2x 2 -kontingenssitaulussa, niin Cra-

merin Φ-kerrointa

. Tä-


mä onkin tyypillisin kontrasti.  Aina efektiä ei kui-

tenkaan määritellä kahden solukeskiarvon välisenä

erotuksena – esimerkiksi tarkasteltaessa kahden

jatkuvan muuttujan välistä assosiaatiota, Cohenin



ei sovellu käytettäväksi efektikoon estimaattina.

Tämän vuoksi Rosenthal ja Rubin ovatkin ehdot-

taneet, että efekti määriteltäisiin riippuvan ja riip-

pumattoman muuttujan yhteisenä vaihteluna (Ro-

senthal, 1984; Rosenthal & Rubin, 2003). Tällöin

efektikoko määritellään muuttujien i  ja  j  välisen

korrelaatiokertoimena r. Jos muuttujat i ja j ovat

numeerisia, r  määritellään yksinkertaisesti muut-

tujien tyypistä riippuen Pearsonin tulomomentti-

kertoimena tai Spearmanin järjestyskorrelaatio-

kertoimena. Jos toinen muuttuja on kaksiluokkai-

nen ja toinen jatkuva, käytetään piste-biseriaalista

korrelaatiokerrointa. Voidaan osoittaa (Rosenthal

& DiMatteo, 2001), että r voidaan laskea myös jäl-

kikäteen t-arvoista, F-arvoista, joiden vapausastei-

den osoittajassa on 1 sekä yhden vapausasteen χ

2

-

arvoista:



(1.8)

(1.9)


voidaan käyttää r-tyyppi-

senä efektikoon estimaattina. Mielivaltaisessa



n –kontingenssitaulussa puolestaan kontrasti

voidaan laskea seuraavasti (Rosenthal & Rosnow,

1991, s. 538)

(1.12)


missä c on kontrastin painokerroin, P on sarakkeen

vertailtavien solujen [tai niiden yhdistelmien]

frekvenssien suhde ja N sarakkeen kokonaisfrek-

venssi.


  Efektikoon estimoiminen r:n avulla tarjoaa

useita etuja d:hen perustuviin estimaatteihin ver-

rattuna. Suurin näistä lienee se, että r voidaan las-

kea useammanlaisissa asetelmissa kuin d. Toinen

huomattava etu on, että korrelaatioon perustuvana

efektikoon estimaattina r on standardoitu, se vaih-



564 Psykologia /5-6/05

N U M M E N M A A

/

2

/



ˆ

(

)



effect

effect

s solut

p

effect

effect

s solut

SS

df

MS

SS

N n df

MS

ω



=

+



 

2

/



ˆ

effect

p

effect

s solut

SS

SS

SS

η

=



+

 

2



ˆ

p

ω  


2

ˆ

p

η

 

2



ˆ

η

 



2

ˆ

η



 

2

ˆη  



2

efekti

σ

 



2

BS

σ

 



2

2

2



efekti

effect

effect

BS

σ

δ σ



σ

=

×



+

 

2



ˆ

p

ω

 



2

ˆ

p

η

 

2



ˆ

p

ω

 



2

ˆ

p

η

 

2



ˆ

p

ω

 



2

ˆ

p

η

 

2



ˆ

effect

total

SS

SS

η

=



 

2

2



4

d

r

d

=

+



 

2

2



1

r

d

r

=



 

telee aina välillä [-1,1]. Tällöin kaikkien mahdol-

listen r-tyyppisten efektikokojen yhdistäminen ja

vertaileminen on periaatteessa yksinkertaista.

Useissa tapauksissa r:n tulkinta on myös suoravii-

vaisempaa – siinä missä d:n, g:n ja ∆:n suuruus riip-

puu mitattujen muuttujien hajonnoista, r on yksin-

kertainen suhdeluku, joka ilmoittaa, kuinka paljon

yhteistä vaihtelua riippuvalla ja riippumattomalla

muuttujalla on. Efektikoot ovat kuitenkin vaih-

dannaisia – vastaavissa asetelmissa lasketut r ja d

voidaan tarvittaessa jälkeenpäin muuntaa toisik-

seen:

(1.13)


(1.14)

Samaan tapaan kuin d:hen perustuvien esti-

maattien, niin myös r:n suuruuden tulkintaan voi-

daan antaa suuntaviivoja. Käyttämällä kaavaa 1.14

saadaan Cohenin (1988) d:n suuruuksia vastaaviksi

r:n rajoiksi  0.1 (pieni efekti), 0.24 (keskisuuri efek-

ti) ja 0.37 (suuri efekti).

Efektikoon η- ja ω-estimaatit

Efektikoon η- ja ω-estimaatit ovat läheistä sukua



r-estimaateille. Toisin kuin r, η- ja ω-estimaatit il-

moittavat efektin suuruuden selitetyn varianssin ja

kokonaisvarianssin osamääränä (Olejnik & Algi-

na, 2003). R-estimaattien avulla voidaan tarkastel-

la pääasiassa yksinkertaisia kontrasteja, mutta η- ja

ω  -estimaattien avulla voidaan arvioida myös

ANOVA:n päävaikutusten efektikoot. Koska

efekti määritellään nyt selitetyn varianssin osuute-

na kokonaisvarianssista, tulee myös käytetty tutki-

musasetelma huomioida efektikokoa laskettaessa.

Tarkastellaan aluksi koeasetelmaa, jossa kaikki te-

kijät ovat täysin satunnaistettuja. Tällöin efekti-

koon estimaattina käytettävä

määritellään yk-

sinkertaisesti tarkasteltavan kontrastin tai päävai-

kutuksen neliösumman SS



effect

  ja yhteisneliösum-

man SS

total

 osamääränä:

(1.15)

Tutkimuksessa tarkasteltavien tekijöiden luku-



määrä vaikuttaa kuitenkin tällä tavoin määritellyn

:n suuruuteen, koska jokaisen tekijän aiheutta-

ma vaihtelu vaikuttaa yhteisneliösummaan SS

total

(Olejnik & Algina, 2003). Tällöin täsmälleen sa-

maa ilmiötä tarkastelevissa tutkimuksissa pelkäs-

tään tekijöiden lukumäärä saattaa aiheuttaa ei-sa-

tunnaista vaihtelua     :n estimaatteihin. Tämän

vuoksi efektikoon estimaattina kannattaa tällaises-

sa tapauksessa käyttää         :tä (Cohen, 1973) tai

:tä (Keren & Lewis, 1979) jotka ovat vertailu-

kelpoisia eri tutkimusasetelmien yli. Käytettäessä

näitä estimaatteja tutkimusasetelmassa olevien,

tarkastelun ulkopuolella olevien tekijöiden vaiku-

tukset voidaan yksinkertaisesti osittaa pois efek-

tistä:

(1.16)


(1.17)

Näiden tunnuslukujen ongelma on kuitenkin

se, että täysin satunnaistetussa asetelmassa lohko-

tekijä pienentää SS



WG

:tä. Tällöin        ja           saat-

tavat olla paljon suurempia sellaisissa tutkimuk-

sissa missä on mukana lohkotekijä (Cohen, 1973).

Olejnik ja Algina (2003) suosittelevatkin, että täl-

laisissa asetelmissa käytettäisiin osittaisten        - ja

-estimaattien sijaan yleistettyjä      - ja

-es-


timaatteja, jotka ovat vertailukelpoisia yli eri tutki-

musasetelmien. Heidän esittämänsä efektikoko-

parametri on muotoa

(1.18)


missä            on yksilöiden välinen variaatio,                on

tarkasteltavan ANOVA-mallin havaittu efekti ja d

= 1, jos mallissa on vain yksi selitettävä muuttuja,

muulloin d = 0.

Koska tällä tavoin määriteltyjen efektikoon esti-

maattien laskukaavat ovat riippuvaisia käytetyistä

tutkimusasetelmissa, en esittele niitä tässä yhtey-

dessä vaan kehotan lukijaa tutustumaan Olejnikin

ja Alginan (2003) alkuperäisartikkeliin.


565

EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA

2

ˆ

G



ω  

2

ˆ



G

η  


1

1

log



2

1

r



e

r

Z

r

+

=



 

m



r

µ

 



EFEKTIKOON SOVELLUKSIA JA ONGELMIA

Efektikoon estimaatti kvantifioi ja standardoi tut-

kimuksessa havaitun ilmiön amplitudin. Koska

efektikoko ei myöskään ilmaise todennäköisyyttä

nollahypoteesin paikkansapitävyydelle eikä niiden

tulkitsemiseen tarvita arbitraarisia kriittisiä rajoja,

efektikokojen raportoimisella voidaan ratkaista

johdannossa esitetyt NHST:iin liittyvät ongelmat

ainakin tyydyttävästi. Tämän lisäksi efektikoon es-

timaateilla on myös muita käyttökelpoisia ominai-

suuksia, joista eräs hyödyllisimmistä on yhdistettä-

vyys. Useamman saman- tai erilaiseen tulokseen

päätyneiden tutkimusten p-arvojen yhdistäminen

ei lisää ilmiötä koskevaa tietoa kovinkaan paljon.

Tällaisesta lähestymistapaa käyttäen voidaankin

lähinnä laskea, kuinka moni tutkimus on tuottanut

tukea vaihtoehtoiselle- ja kuinka moni nollahypo-

teesille ja siten tehdä päätelmiä ilmiön toistuvuu-

desta.  Jos tutkijalla on kuitenkin käytettävissään

kahdessa tai useammassa riippumattomassa tutki-

muksessa havaitut efektikoot, näiden yhdistelmä-

nä voidaan laskea painotettu yhdistetty efektikoko



efekti

m

. Tämän avulla voidaan arvioida kuinka voi-

makas riippumattoman ja riippuvan muuttujan vä-

linen yhteys on ollut, kun jokaisessa tutkimuksessa

havaittu efekti painotetaan tutkimuksen otoskool-

la ja tämän jälkeen efektikoot yhdistetään. Lisäksi



efekti

m

:lle voidaan laskea luottamusväli. Menettely

on erittäin käyttökelpoinen meta-analyyseissa.

Efektikokoja yhdistettäessä on yksinkertaisinta

käyttää r-estimaatteja. Tällöin jokainen r transfor-

moidaan Fisherin Z-r -muunnoksella

Jos efektikoot on laskettu tutkimuksista, joissa

on käytetty erilaisia koeasetelmia, menettely ei kui-

tenkaan ole yhtä triviaali. Lohkotekijöiden luku-

määrä nimittäin vaikuttaa r,  η- ja ω-tyyppisten

efektikoon estimaattien laskemiseen. Vaikka ha-

vaitut ryhmäkeskiarvojen erotukset olisivatkin sa-

mansuuruiset kahdessa tutkimuksessa, efektit saat-

tavat olla erisuuruiset, koska asetelman yksittäisten

solujen varianssi on riippuvainen lohkotekijöiden

määrästä (Olejnik & Algina, 2003). Tällöin kan-

nattaakin laskea mieluummin      - tai

esti-


maatti jokaiselle tutkimukselle, mutta näiden luot-

tamusvälien muodostaminen ei valitettavasti ole

yhtä yksinkertaista kuin r

m

:n tapauksessa.

Efektikoon avulla voidaan suorittaa helposti

myös voimalaskelmia (ks. Cohen, 1992), joiden

avulla voidaan estimoida kuinka suuri otoskoon

tulisi olla, jotta tietyn suuruinen efekti olisi tilastol-

lisesti merkitsevä. Odotettu efektin koko voidaan

arvioida tarkastelun kohteena olevaa ilmiötä selvit-

täneiden tutkimusraporttien perusteella yhdistä-

mällä efektikoot siten, kuten edellä esitettiin. Me-

nettely on käytännöllinen, sillä voimalaskelmien

avulla voidaan välttyä sekä liian pieniltä että tar-

peettoman suurilta otoksilta, ja voimalaskelmien

tekemistä voidaankin suositella rutiinitoimenpi-

teenä mitä tahansa tutkimusta suunniteltaessa.

Kääntäen efektikoon avulla on myös mahdollis-

ta laskea niin sanotun pöytälaatikkoefektin (file

drawer effect) suuruus (Rosenthal & DiMatteo,

2001). Tällä viitataan siihen, että tutkimuksia,

joissa nollahypoteesi jää voimaan, on tyypillisesti

hankala saada julkaistuksi. Siten raportoiduista

tutkimuksista lasketut r



m

:t ovat tyypillisesti     :n

yliestimaatteja. Yksinkertainen – ja samalla myös

yksittäisten tutkimustulosten efektin suuruutta ar-

vioitaessa käyttökelpoinen menettely – on arvioi-

da, kuinka monta nollatulosta tuottavaa tutkitta-

vaa täytyisi testata, jotta havaittu efektikoko alit-

taisi ennalta määrätyn rajan (Rosenthal, 1995) tai

että p-arvo ylittäisi asetetun alfatason (Nummen-

maa & Niemi, 2004). Jälkimmäisessä lähestymis-

tavassa määritetään pienin havaittuun dataan yh-

distettävä n nollatuloksen tuottavia koehenkilöitä

jolla 95 %:n luottamusväli r



m

:lle käsittää nollan.

Tällöin suoritetaan eräänlainen käänteinen voima-

laskelma jonka avulla on käytännöllistä arvioida

kuinka yleistettävinä tutkimuksessa havaittuja tu-

loksia voidaan pitää.

(1.19)


lasketaan painotettu Zr-keskiarvo ja transformoi-

daan tämä r-Z -muunnoksen avulla r



m

:ksi. Lopuk-

si voidaan vielä laskea 95 %:n luottamusväli r

m

:lle

(Rosenthal & Rubin, 1989). Menettely on erittäin

käyttökelpoinen, koska nyt voidaan laskea r

useal-


le eri käsittelylle ja luottamusvälejä tarkastelemalla

voidaan arvioida poikkeavatko eri käsittelyjen

tuottamat efektit toisistaan (Raghunathan, Ro-

senthal, & Rubin, 1996). Tällaista menettelyä

käyttäen tieteellinen psykologinen tieto kumuloi-

tuu aidosti, numeerisesti, eikä ainoastaan laadulli-

sesti.

-


566 Psykologia /5-6/05

N U M M E N M A A

2

ˆ

G



ω

 

2



ˆ

G

η

 



2

ˆ

G

ω

 

2



ˆ

G

η

 



2

ˆ

G

ω

 

2



ˆ

G

η

 



Mitä efektikoon estimaattia pitäisi käyttää?

Tutkimusraporttien tulkitsemisen kannalta on

ongelmallista, että toistaiseksi ei ole saavutettu

yksimielisyyttä siitä, mitä efektikoon estimaattia

raportoinnissa tulisi käyttää. Tämä ei kuitenkaan

ole ylitsepääsemätön ongelma, sillä d-ja r-tyyppi-

set efektikoot voidaan kuitenkin muuntaa jälkeen-

päin toisikseen. Jos mahdollista, yleensä kannat-

taisi kuitenkin käyttää        - tai

-estimaattia,

koska tällaiset estimaatit voidaan laskea useimmis-

sa tutkimusasetelmissa ja siten efektikokojen esti-

maatit ovat vertailukelpoisia yli erilaisten tutki-

musasetelmien. Valitettavasti           - ja

- e s -

timaattien ongelma kuitenkin on, että heikot efek-



tit saattavat hävitä kun efektikoon estimaatti neli-

öidään.


Jos tarkasteltava efekti on pieni eikä    - tai      -

estimaattia haluta käyttää, suosittelen efektikoon

estimaatiksi r:ää ennemmin kuin d-perustaista es-

timaattia jo siitäkin syystä, että r on helpommin

tulkittavissa. Siinä missä d ilmoittaa efektin suu-

ruuden keskihajonnan yksikkönä, saadaan r:n

avulla helpommin sovellettavissa olevaa tietoa.

Tarkastellaan esimerkkinä Baskinin tutkimusryh-

män (2003) meta-analyysia, jossa vertailtiin plase-

boterapian ja ”oikean” psykoterapian vaikutta-

vuuksia. Tutkimusta varten vertailtiin kolmea eri

ryhmää psykoterapioita: (i) ”oikeita” psykoterapi-

oita, (ii) ”oikeiden” psykoterapioiden kanssa ra-

kenteellisesti erilaisia plaseboterapioita ja (iii) ”oi-

keiden” psykoterapioiden kanssa rakenteellisesti

samanlaisia plaseboterapioita. Tutkimuksessa ha-

vaittiin, että d kontrastille i-ii oli 0.47 ja kontrastil-

le i-iii 0.149. Keskihajontaan perustuvien efekti-

koon estimaattien perusteella ”oikeat” terapiat vai-

kuttaisivat siis toimivan jossain määrin paremmin

kuin kumpikaan plaseboterapioista. Jos d-tyyppi-

set efektikoot muutetaan r:ksi niin havaitaan, että

vastaavat efektikoon estimaatit ovat 0.23 ja 0.07.

Kun ”oikean” psykoterapian vaikuttavuutta verra-

taan sen kanssa rakenteellisesti samanlaiseen pla-

seboterapiaan, niin koehenkilön saaman terapian

tyypin (oikea / plasebo) havaitaan selittävän vain 7

% hoitotuloksesta. Tulosten soveltajalle r-tyyppi-

nen estimaatti on siten intuitiivisesti mielekkääm-

pi tapa tulkita tutkimuksessa havaittu psykoterapi-

an vaikuttavuus.

YHTEENVETO: EFEKTIKOKOJEN

TULKITSEMINEN JA RAPORTOIMINEN

Vaikka tilastotieteilijät ovat jo pitkään kehotta-

neet käyttäytymistieteiden tutkijoita täydentä-

mään tai korvaamaan NHST:n muilla menette-

lyillä (Chow, 1988), NHST on edelleen vallitseva

tapa hypoteesien testaamiseen psykologiassa.

Efektikoon rutiininomainen raportoiminen on al-

kanut muodostua käytännöksi vasta viime vuosi-

na, ja kaikki lehdet eivät sitä vieläkään edellytä.

Tutkimuksen efektikoko kannattaa kuitenkin las-

kea ja raportoida, vaikka kohdelehden käytäntö ei

sitä edellyttäisikään. Efektikokojen avulla saadaan

tutkimusaineistosta monipuolisempaa informaa-

tiota kuin NHST:lla. Siinä missä NHST antaa

binäärisesti tukea joko nolla- tai vaihtoehtoiselle

hypoteesille, efektikoko puolestaan antaa suoraan

numeerista informaatiota tutkittavien muuttujien

välisestä yhteydestä.

Pelkkä efektikoko ei kuitenkaan riitä tutkimus-

tulosten raportoimiseen. Efektikoko kvantifioi

tutkittavan ilmiön amplitudin otoksessa, mutta

sen avulla ei voi päätellä, aiheutuiko havaittu efekti

sattumalta, ts. kuinka todennäköistä on, että vas-

taava efekti havaitaan toisessa riippumattomassa

aineistossa. Tämän vuoksi efektikoon rinnalle on

esitetty myös toisentyyppisiä estimaatteja, joissa

tutkimustulosten arvioinnin kannalta keskeinen

tieto voitaisiin esittää yhden statistikan avulla.

Esimerkiksi Killeenin (2005) r

rep

 estimoi todennä-

köisyyden sille, että havaitun efektin kanssa sa-

mansuuntainen efekti toistuu riippumattomassa

tutkimuksessa jossa koehenkilömäärä ja otantavir-

he ovat alkuperäisen tutkimuksen kaltaisia.

Efektikoko ei myöskään ole täydellinen esti-

maatti ilmiöiden välisestä riippuvuudesta. Ensin-

näkin, efektikoko (eli riippuvan ja riippumatto-

man muuttujan välisen yhteyden voimakkuus) ei

kaikissa tilanteissa ole ekvivalentti teoreettisten

konstruktien välillä vallitsevan assosiaation kanssa

(Chow, 1988) eikä sitä pidä myöskään tulkita

näin. Lisäksi, vaikka efektikoko onkin informatii-

vinen tapa esittää tutkimuksen tulokset, efektiko-

ko ei välttämättä ole tutkimustulosten soveltajalle

merkityksellistä tietoa (Olejnik & Algina, 2000).

Esimerkiksi depressiolääkkeitä kustantavaa tahoa

ei kiinnosta tietää, että lääkkeiden vs. plasebon


567

EFEKTIKOKO PSYKOLOGISESSA TUTKIMUKSESSA

käyttö selittää 50 % hoidettavien potilaiden dep-

ression variaatiosta. Rahoittajaa kiinnostaa, mitä

hyötyä depressiolääkkeiden käyttämisestä on ollut

näille henkilöille verrattuna jonossa odottamiseen.

Ongelmista huolimatta suosittelen, että efekti-

koon estimaatteja käytettäisiin systemaattisesti

tutkimustuloksia raportoitaessa. Efektikoon esti-

maatin ohella olisi aina kuitenkin suoritettava joko

efektikoon luottamusvälin arviointi (Loftus, 1996;

Steiger, 2004), aineiston huolellinen graafinen

esittäminen (Loftus, 1996) sekä vahva NHST

(Cohen, 1994). Jos efektikoon estimaatit valitaan

huolellisesti tarkoitustaan vastaavaksi, tulkitaan

asianmukaisesti ja niiden rinnalla esitetään riittä-

västi täydentävää informaatiota, psykologiassa voi-

daan muodostaa todellisia teorioita kumuloituvan,

kvantitatiivisen tutkimustiedon perusteella.

Artikkeli on saapunut toimitukseen 8.8.2005 ja hyväk-

sytty julkaistavaksi 29.9.2005.

Keren, G. & Lewis, C. (1979). Partial omega squared for

ANOVA designs. Educational & Psychological Measure-

ment, 39, 119–128.

Killeen, P. R. (2005). An Alternative to Null-Hypothesis Sig-

nificance Tests. Psychological Science, 16, 345–353.

Kirk, R. E. (1996). Practical significance: A concept whose

time has come. Educational and Psychological Measure-

ment, 56, 746–759.

Loftus, G. R. (1996). Psychology will be a much better science

when we change the way we analyze data. Psychological

Science, 5, 161–171.

Muthèn, B., & Muthèn, L. K. (2000). Integrating person-

centered and variable-centered analyses: Growth  mixture

modeling with latent trajectory classes. Alcoholism: Clini-

cal & Experimental Research, 24, 882–891.

Nummenmaa, L. (2004). Käyttäytymistieteiden tilastolliset

menetelmät. Vammala: Tammi.

Nummenmaa, L., & Niemi, P. (2004). Inducing affective sta-

tes with success-failure manipulations: A meta-analysis.

Emotion, 4, 207–214.

Olejnik, S., & Algina, J. (2003). Generalized eta and omega

squared statistics: Measures of effect size for some com-

mon research designs. Psychological Methods, 8, 434–

447.

Olejnik, S. & Algina, J. (2000). Measures of effect size for



comparative studies: Applications, interpretations, and li-

mitations. Contemporary Educational Psychology, 25,

241–286.

Popper, K. R. (1959). The logic of scientific discovery. New

York: Basic Books.

Raghunathan, T. E., Rosenthal, R. & Rubin, D. B. (1996).

Comparing correlated but nonoverlapping correlations.

Psychological Methods, 1, 178–183.

Rosenthal, R. (1984). Meta-analytic procedures for social re-

search. Beverly Hills: Sage Publications.

Rosenthal, R. (1995). Writing meta-analytic reviews. Psycho-

logical Bulletin, 118, 183–192.

Rosenthal, R. & DiMatteo, M. R. (2001). Meta analysis: Re-

cent developments in quantitative methods for  literature

reviews. Annual Review of Psychology, 52, 59–82.

Rosenthal, R. & Rosnow, R. L. (1991). Essentials of behavio-

ral research: Methods and data analysis. New York: Mc-

Graw-Hill.

Rosenthal, R. & Rubin, D. B. (2003). r-sub(equivalent): A

simple effect size indicator. Psychological Methods, 8,

492–496.

Rosenthal, R. & Rubin, D. B. (1989). Effect size estimation

for one-sample multiple-choice-type data: Design, analy-

sis, and meta-analysis. Psychological Bulletin, 106, 332–

337.

Steiger, J. H. (2004). Beyond the F test: Effect size confidence



intervals and tests of close fit in the analysis of variance and

contrast analysis. Psychological Methods, 9, 164–182.

Stone, J. V. (2002). Independent component analysis: An

introduction. Trends in Cognitive Sciences, 6, 59-64.

Tukey, J. W. (1991). The philosophy of multiple comparisons.

Statistical Science, 6, 100–116.

Lähteet

American Psychological Association. (2001). Publication ma-



nual of the American Psychological Association (5.th ed.).

Washington: American Psychological Association.

Baskin, T. W., Tierney, S. C., Minami, T. & Wampold, B. E.

(2003). Establishing specificity in psychotherapy: A meta-

analysis of structural equivalence of placebo controls. Jour-

nal of Consulting & Clinical Psychology, 71, 973–979.

Bayes, T. (1764). An essay toward solving a problem in the

doctrine  of chances. Philosophical Transactions of the

Royal Society of London, 53, 370–418.

Chow, S. L. (1988). Significance test or effect size? Psycholo-

gical Bulletin, 103, 105–110.

Cohen, J. (1994). The earth is round (p<.05). American

Psychologist, 49, 997–1003.

Cohen, J. (1992). A power primer. Psychological Bulletin,

112, 155–159.

Cohen, J. (1973). Eta-squared and partial eta-squared in fixed

factor ANOVA designs. Educational and Psychological

Measurement, 33, 107–112.

Cohen, J. (1969). Statistical power analysis for the behavioral

sciences. New York: Academic Press.

Fisher, R. A. & Bennett, J. H. (1990). Statistical methods,

experimental design, and scientific inference. New York:

Oxford University Press.

Gill, J. (2002). Bayesian methods: A social and behavioral

sciences approach. Boca Raton: Chapman & Hall/CRC.

Glass, G. V., McGaw, B.,& Smith, M. L. (1981). Meta-ana-



lysis in social research. Beverly Hills: Sage Publications.

Yüklə 225,34 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2025
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin