5 Hypoteesitestaus
Tutkijan valittua otantakehyksensä ja populaationsa, hän kehittää seuraavaksi hypoteesejä. Hypoteesi on tieteellinen “arvaus” mahdollisesta tuloksesta, jonka tutkija tulee saamaan tutkimuksestaan. Tämän tarkoituksena on suojata tutkijaa mahdolliselta vahvistusharhalta (engl. confirmation bias), eli ihmisten taipumukselta valikoida tietoa tavalla, joka vahvistaa aikaisempia ennakkoluuloja.
Hypoteesien toimintatapoja on useita, joista yleisin lienee nollahypoteesimerkitsevyystestaus (engl. null hypothesis significance testing, NHST). Tätä kutsutaan myös Neymanin ja Pearsonin hypoteesitestaukseksi, menetelmän kahden kehittäjän mukaan.
5.1 Nollahypoteesimerkitsevyystestaus (NHST)
5.1.1 Falsifikaatio
NHST pohjautuu kahteen ajatukseen:
- Asetetaan hypoteesi etukäteen, jotta vältetään vahvistusharhaa.
- Asioita voidaan vain osoittaa vääräksi, ei ikinä todeksi
Toinen kohta juontuu filosofi Karl Popperin kehittämästä falsifikaatiosta. Yksinkertaisimmillaan falsifikaatioteoria sanoo, että mikään tieteellinen koe ei ikinä voi todentaa jotain väiteittä. Väitteen todentamiseksi tulisi jotenkin osoittaa vedenkestävästi, että väite on aina totta kaikissa tilanteissa.
Klassinen falsifikaation esimerkki on joutsenten väri. Jos me väitämme, että:
Kaikki joutsenet ovat valkoisia.
niin emme ikinä voi todistaa tätä väitettä. Meidän tulisi tavata joka ikinen joutsen joka ikinä on ollut olemassa tai tulee olemaan olemassa - tämä ei ole mahdollista.
Falsifikaation ydin piilee siksi väitteen vääräksi toteamisessa. Jos me väitämme, että kaikki joutsenet ovat valkoisia, niin me tarvitsemme löytää vain yhden erivärisen joutsenen osoittaaksemme väitteen olevan väärässä.
Toisin sanoen: tieteellisiä väitteitä voidaan todistaa olevan väärässä, mutta ei todentaa.
5.1.2 Nollahypoteesi falsifikaation työkaluna
NHST:ssa falsifikaation teoriaa sovelletaan nollahypoteesin \(H_0\) avulla. Ensin ajattelemme, millaisen suhteen uskomme näkevän datassa. Esimerkiksi, että kaikki joutsenet ovat valkoisia. Tätä kutsutaan myös vaihtoehtohypoteesiksi \(H_1\).
Sitten asetamme nollahypoteesin, joka edustaa vaihtoehtohypoteesin negaatiota, eli vääryyttä. On huomattava, että nollahypoteesi ei ole vain suhteen kääntämistä ympäri, vaan suhteen puuttumista.
\(H_1\): Kaikki joutsenet ovat valkoisia.
\(H_0\): Vähintään yksi joutsen ei ole valkoinen.
Tämän jälkeen keräämme dataa, jolla voidaan osoittaa nollahypoteesi vääräksi. Esimerkissä kyseessä voisi olla monen joutsenen valokuvaaminen tai värin kirjaaminen vihkoon.
Sitten tulee oikea looginen mestariteos:
Jos löydämme vain valkoisia joutsenia, voimme laskea kuinka todennäköistä olisi ollut löytää vain valkoisia joutsenia, jos nollahypoteesi onkin todellisuudessa oikeassa. Jos todennäköisyys on tarpeeksi pieni, voimme todeta luottavamme päätökseen, että nollahypoteesi on väärässä.
Tiede ei osoita vaihtoehtohypoteesien olevan oikeassa tai väärässä (sitä ei juurikaan voi tehdä) - tiede osoittaa suhteen puuttumisen olevan tarpeeksi epätodennäköistä, että voimme uskoa suhteen olemassaoloon.
5.1.3 Todistuksen puute ei ole puutteen todistamista
Englanniksi sanotaan: absense of evidence is not evidence of absense. Tällä tarkoitetaan siis, että nollahypoteesin epätodennäköisyyden osoittaminen ei tarkoita, että vaihtoehtohypoteesi olisi yhtään sitä todellisempi.
Vaihtoehtohypoteesejä voi käytännössä asettaa kuinka paljon tahansa. Jokaiselle suhteen puuttumisen epätodennäköisyydelle voi antaa vaihtoehtoisia selityksiä maan ja taivaan välillä.
Esimerkissä emme löytäneet ei-valkoista joutsenta. Selitys sille voisi olla, että kaikki joutsenet ovat valkoisia. Se voisi myös olla jokin muu:
Ehkä emme keränneet tarpeeksi dataa nähdäksemme ei-valkoisen joutsenen, koska ne ovat niin harvinaisia.
Ehkä ihminen ei pysty näkemään joutsenten ei-valkoisuutta, koska ei-valkoiset joutsenet ovat väriltään jotain, jota ihmisen silmän tappisolut eivät pysty prosessoimaan.
Ehkä ei-valkoiset joutsenet ovat näkymättömiä.
Ja niin edespäin. Jotkut mahdollisista selityksistä tuntuvat tietysti absurdeilta tai mahdottomilta, mutta datalla emme pysty osoittamaan sitä. Selitys syntyy aina teorian kautta, vaikka sillä olisi jokin kaukainen suhde dataan.1
1 Tämä näkemys tulee 1900-luvun tieteenfilosofiasta. Myös Karl Popper itse osoitti teorioiden syntyvän datan ja ei-empiirisen järjen kohtaamisesta. Jos aihe kiinnostaa enemmän, suosittelen lukemaan esim. Popperin The Logic of Scientific Discovery (1959) sekä tieteenfilosofin Imre Lakatosin esseekokoelman Criticism and the Growth of Knowledge (1970). Englantilainen tieteenfilosofi Donald Gillies on kirjoittanut lähestyttävän teoksen tieteenfilosofian perusteista nimeltä Philosophy in the 20th century (1993), ja suomeksi löytyy myös Kiikerin ja Ylikosken oppiteos Tiede tutkimuskohteena (2004).
Kun siis testaat tilastollisia suhteita, muista: nollahypoteesin epätodennäköisyys ei sinänsä anna lisätodisteita vaihtoehtohypoteesille, koska selitykset eivät itsessään ole suorassa kytköksessä dataan.
5.2 Nollahypoteesin testaaminen
Jotta me voimme testata tuloksemme todennäköisyyttä nollahypoteesin alla, käytämme usein jotain tilastollista jakaumaa.
Jakaumia käytetään satunnaisotannan yhteydessä. Voimme tehdä oletuksen, että jokainen otanta antaa sattumanvaraisesti tietyn tuloksen, mutta että tämä tulos noudattaa jotain jakaumaa. Yleisesti käytettyjä jakaumia ovat normaalijakauma, khiin neliön jakauma, t-jakauma ja f-jakauma.
Jakaumat ovat hyödyllisiä, koska erittäin osaavat tilastotieteilijät ovat rakentaneet kaiken maailman laskukaavoja niiden käyttämiseen. Yksi hyödyllisimmistä työkaluista on todennäköisyystiheysfunktio, joka kertoo meille jakauman todennäköisyyden aina tietyllä alueella jakaumaa.
Voimme käyttää tiheysfunktiota nollahypoteesin testauksessa. Laskemme ensin tuloksemme ja asetamme nollahypoteesimme. Muunnamme sitten tuloksemme johonkin muotoon, joka vastaa tiettyä jakaumaa, ja tarkistamme mihin kohtaan jakaumaa se asettuu.
Sen jälkeen laskemme, kuinka paljon jakaumasta asettuu sille kohdalle tai korkeammalle (matalemmalle, jos kyseessä on negatiivinen arvo jakaumalla). Tämä kertoo meille, kuinka todennäköistä on saada meidän tulos tai suurempi, jos nollahypoteesi (että tuloksen pitäisi olla jakauman keskipisteessä) olisi totta.
Tätä todennäköisyyttä kutsutaan p-arvoksi, ja muodon vuoksi annan määritelmän vielä kerran:
P-arvo osoittaa todennäköisyyttä saada mitattu tulos tai suurempi, jos nollahypoteesi olisi totta ja tuloksen olisi pitänyt olla nolla.
5.2.1 Alfa-arvot ja merkitsevyys
Vaikka p-arvo osoittaa todennäköisyyttä, sinun pitää vielä määritellä yksi asia. Kuinka epätodennäköistä mitatun tuloksen saaminen nollahypoteesin alla tulisi olla, jotta se “kelpaa” tuloksena? Tätä rajaa kutsutaan merkitsevyyden rajaksi.2
2 Binääristen rajatestausten aika alkaa olla ohi (ks. Lakënsin verkkokirja). On monia erittäin hyviä syitä olla käyttämättä p-arvojen raja-arvoja, mutta vaihtoehdot ovat jokseenkin monimutkaisia ja vaativat tilastollisten kurssien täydellistä uudelleenmuotoilua. Ehkä jonain päivänä…
Onneksi (ja osittain myös harmiksi) tutkijoilla on käytössä useita raja-arvoja, joita usein sovelletaan. Tavallisimmat rajat ovat: 5 %, 1 % ja 0,1 %. Näitä kutsutaan myös alfa-arvoiksi.
Toisin sanoen, tulos nähdään epätodennäköisenä nollahypoteesin alla jos sen tulisi esiintyä yksi kahdestakymmenestä, yksi sadasta tai yksi tuhannesta mittauskerrasta. Mitä pienempi raja-arvo, sitä epätodennäköisempi tulos nollahypoteesin alla.
Kun teet tilastollisia testejä, käytä näitä raja-arvoja. Huomaa kuitenkin, että jos saat esimerkiksi \(p = 0,051\), älä heitä tulosta “pois” vain sen takia että se ylitti raja-arvon!3 Tarkista aina myös tuloksen koko (ks. merkittävyydestä alla), ja ole rehellinen epävarmuutesi suhteen.
3 Tilastotieteilijät Andrew Gelman ja Mel Stern ovatkin huomauttaneet, että ero merkitsevän ja ei-merkitsevän välillä on usein ei-merkitsevä (Gelman ja Stern 2006). Toisin sanoen, raja-arvon käyttö voi johtaa vääriin tulkintoihin, jolloin joko todetaan positiivinen tai negatiivinen tulos nollatulokseksi (väärä positiivi tai negatiivi).
5.2.2 P-arvon väärinkäsittäminen
Kuten monia muita tilastollisia menetelmiä, myös p-arvoa käsitetään usein väärin. Tilastotieteilijä Daniel Lakëns on kerännyt monia väärinkäsityksiä mainioon verkkokirjaansa, joten esitän ne tässä lyhyesti:
- Ei-merkitsevä p-arvo tarkoittaa, että nollahypoteesi on oikeassa.
- Merkitsevä p-arvo tarkoittaa, että nollahypoteesi on väärässä.
- Merkitsevä p-arvo tarkoittaa, että tulos on merkittävä.
Ensinnäkin, p-arvo ei osoita nollahypoteesin oikeutta tai vääryyttä ylipäätänsä. P-arvo, kuten aikaisemmin todettu, esittää tuloksen todennäköisyyttä jos nollahypoteesi olisi oikeassa. Perinteisessä tilastotieteessä (frekvenssitilastotiede) ei testata hypoteesien todennäköisyyksiä, vaan tulosten todennäköisyyksiä - tässä moni ymmärtää tilastotieteen aseman väärin.
Toiseksi, p-arvo ei kerro meille mitään tuloksen merkittävyydestä (huomaa ero merkitsevyyteen!). Tuloksen merkittävyys on teoreettinen kysymys. Kuinka suuri jonkun eron pitäisi olla, että meitä ylipäätänsä kiinnostaa? Miten tehokkaasti lääkkeen tulisi vaikuttaa, että me haluaisimme käyttää sitä? Kuinka monta prosenttiyksikköä on “suuri” ero? Näihin kysymyksiin ei valitettavasti löydy tilastollista vastausta, koska ne ovat ei-empiirisiä kysymyksiä.
5.3 Tilastollisen testaamisen perusmenetelmä
Tähän asti olen enimmäkseen antanut pitkän listauksen asioista, joita ei tulisi tehdä. Mutta mitä sitten tulisi tehdä? Tässä kiteytys nollahypoteesimerkitsevyystestauksesta:
- Päätä, mitä suhdetta haluat testata ja miksi.
- Aseta vaihtoehtohypoteesi (mahdollinen tulos).
- Aseta nollahypoteesi vaihtoehtohypoteesin negaationa.
- Kerää data, joka edustaa suhdetta ja hypoteesejasi.
- Suunnittele testi, joka voi osoittaa nollahypoteesisi “vääräksi” (eli hae tulos, joka voisi olla epätodennäköinen nollahypoteesin alla).
- Määrittele, mitä tarkoitat “epätodennäköisellä” - aseta alfa-arvosi.
- Tarkista testin todennäköisyysarvo (p-arvo).
- Jos testin todennäköisyysarvo on alle alfa-arvon, voit todeta, että tulos olisi epätodennäköinen nollahypoteesin alla.
- Jos testin todennäköisyys sen sijaan on yli alfa-arvon, et voi todeta tätä. Tätä kutsutaan nollatulokseksi - julkaise myös se!