22 Tilastotyökalut
Tämä luku esittelee erinäisiä tilastotyökaluja, jotka ovat laajemmassa käytössä. Koska kurssi keskittyy Excelin käyttöön, emme käytä näitä tällä kertaa. Jos kuitenkin olet kiinnostunut tilastollisesta työskentelystä, suosittelen näihin tutustumista omalla ajalla.
Työkalut esitellään hyvin lyhyesti. Jokaisessa osiossa on linkkejä tai tietoa työkalun oppimiseen - en kuitenkaan ole jokaisen työkalun ammattiosaaja, joten suosittelen myös eri resurssien googlaamista.
22.1 IBM SPSS Statistics ja PSPP
Yhteiskuntatieteissä ehkä suosituin työkalu on IBM SPSS Statistics. Lyhytnimeltään SPSS on suhteellisen helppokäyttöinen tilastotyökalu, jolla voit tehdä haastaviakin tilastollisia malleja sekä tuottaa alkeellista grafiikkaa ja automatisoida analyyseja.
SPSS on aika helppokäyttöinen, kunhan sen käyttöliittymään tutustuu. Sen suosio lienee historiallinen, sekä osittain se seikka, ettei käyttöliittymä ja yleiskäyttökokemus itsessään ole juurikaan muuttunut vuosikymmeniin.
SPSS on kuitenkin maksullinen (ja aika kallis sen lisäksi!). Sen graafiset ominaisuudet ovat hieman heikot, varsinkin joustavuudessaan, ja käyttöliittymään tottuminen vie aikaa. Sen lisäksi SPSS yksinkertaistaa analyysien teon sille tasolle, että tottumaton käyttäjä voi helposti tehdä virheellisiä analyyseja vain koska järjestelmä sallii niiden teon.
SPSS:lle on olemassa yksinkertaisempi avoimen lähdekoodin versio, PSPP. Versiossa on kaikki SPSS:n perustoiminnot, sekä kohtalainen yhteistuki SPSS-tiedostojen kanssa. Siitä kuitenkin puuttuu varsinkin uusimmat ominaisuudet. PSPP on joka tapauksessa oiva vaihtoehto, jos yhteistyökumppanisi vaativat SPSS:n käyttöä, mutta sinulla tai kotiorganisaatiollasi ei ole varaa/mahdollisuutta hankkia SPSS-lisenssiä.
SPSS:n käytön oppimiseen suosittelen psykologi Andy Fieldin erinomaista teosta Discovering Statistics with IBM SPSS Statistics. Teoksesta löytyy viisi julkaistua versiota, sekä tukiverkkosivu.
22.2 Jamovi
SPSS:n uudeksi haastajaksi on kehittynyt Jamovi-työkalu. Jamovi on alun perin australialaisten tutkijoiden kehittämä vaihtoehto SPSS:n ja SAS:in tapaisille suljetuille ja hintaville työkaluille. Vaikka työkalulla ei vielä ole suurta suosiota, sen helppokäyttöisyys, avoimuus ja nopea kehitys tullaan varmasti huomaamaan lähitulevaisuudessa.
Jamovin käyttöliittymä on erittäin yksinkertainen, mutta järjestelmä tukee vaativiakin tilastollisia analyyseja. Jamovi on rakennettu R-kielen pohjalta, joten periaatteessa tilastollisten menetelmien tuen rajana on R-kielen omat menetelmätuet - eli käytännössä rajaton. Jamovi ei kuitenkaan vaadi ollenkaan R-osaamista, joten aloittelijatkin voivat käyttää sitä.
Jamovin eräänä huonona puolena voidaan nähdä avoin lähdekoodi (joka kuitenkin usein on myös vahvuus). Tämä tarkoittaa, ettei kehitys aina tapahdu systemaattisesti tai suuryrityksen vaatimalla aikataululla. Myös Jamovin nuoruus tarkoittaa, että tukea ja ohjeita löytyy vähemmän kuin suuremmalle ohjelmistolle.
22.3 R-ohjelmointikieli
Joskus valmiit tilastotyökalut eivät riitä. Työkaluihin lisätään toimintoja suht hitaasti, ja varsinkin uusimmat menetelmälliset kehitykset eivät esiinny ohjelmistopaketeissa aikaisessa vaiheessa. Näitä varten löytyy tilastolliset ohjelmointikielet, josta R-kieli on yksi suosituimmista.
Tilastollinen ohjelmointi on, niin kuin nimi sanoo, ohjelmointia. Se vaatii siis jonkin verran ohjelmointiosaamista tai -oppimista. R:n vahvuutena1 on, että sen kehityksen takaa löytyy tutkijoita, ei ohjelmoijia. Toisin sanoen, R-kielen logiikka on lähempänä ihmiskieltä kuin moni muu ohjelmointikieli, eikä R vaadi yhtä paljon ohjelmointiosaamista kuin muut kielet.
1 Tai heikkoutena, jos kysyt ohjelmoijilta.
R:n erityisvahvuutena on graafinen työ. R-kielellä voit laatia vaikka minkä moisia käppyröitä, tehdä interaktiivisia esityksiä, ja jopa kirjoittaa kokonaisia kirjoja. Tämä verkkokirja on kirjoitettu R-pohjaisessa Markdown-kielessä, ja monet tämän kirjan kuvista ja interaktiivisista testeistä on tehty R:ssä!
R-kielestä löydät suunnaton määrä eri paketteja. Nämä implementoivat usein upouusia menetelmiä, joten pääset käsiksi ihan avant-gardiin. Toisaalta, tämä tarkoittaa myös joskus heikkoa dokumentaatiota - jos lähdet R-kielen polulle, sinun tulee tottua pitkiin googlaussessioihin ja foorumien läpikahlontaan.
R-kieli on ilmainen ja avoin, mutta vaatii aika paljon opettelua. Jos jaksat ja pystyt pääsemään alkukynnyksen yli, työkalu on kuitenkin paljon valmiita ohjelmistoja tehokkaampi. Voit käytännössä tehdä minkä tahansa analyysin, automatisoida mitä tahansa, ja tuottaa mitä tahansa muotoja suoraan yhdestä ohjelmasta.
22.4 Python-ohjelmointikieli
Ohjelmoinnista kiinnostuneille löytyy myös Python-ohjelmointikieli. Python on osittain samanlainen kuin R, eli erittäin helppokäyttöinen ja (suhteellisesti) nopeasti opittava ohjelmointikieli. Python on kuitenkin yleisohjelmointikieli, ei tilastollinen ohjelmointikieli. Tämä tarkoittaa, että Pythonilla voi tehdä paljon muutakin kuin tilastollista ohjelmointia - esim. pelejä, tietokoneapplikaatioita, serveriautomatisointia, ja paljon muuta.
Pythonille löytyy oma “akateeminen” julkaisupaketti nimeltä Anaconda. Paketti sisältää kaikki tilastolliselle työskentelylle vaaditut paketit, sekä ohjelmistoja, jotka auttavat koodin kirjoittamisessa ja testaamisessa.
Python on erittäin suosittu datatieteilijöiden parissa, ehkä juurikin sen koneoppimistyökalujen vuoksi. Jos sinua kiinnostaa tekoäly, koneoppiminen ja neuroverkot, Python on hyvä aloitus työlle. Myös luonnollisten kielten mallinnus ja tekstinkäsittely on helpohkoa Pythonilla.
Heikkoina puolina voi nähdä ohjelmointikielen oppimisen vaikeudet ja mahdolliset heikkoudet avoimen lähdekoodin työkaluissa. Koska Python on yleiskieli, se ei aina toimi tavalla, joka olisi luonnollista tilastojen käsittelylle, joten ota myös tämä huomioon. Python on kuitenkin data-alan konkari, jos ala kiinnostaa sinua.