Man lærer aller best ved å jobbe selv og få hjelp underveis. Dette forkurset er derfor lagt opp til at du skal jobbe på egenhånd, og det blir ingen forelesninger. Dette heftet går gjennom hvordan man gjør en rekke praktiske oppgaver med bruk av softwaren R, og dekker dermed grafikk, deskriptiv statistikk, regresjonsmodeller, og statistisk tolkning. Tilhørende er grunnleggende databehandling som jo også trengs.
1.1 Gjør det på egen datamaskin
Heftet bruker gjennomgående et enkelt datasett abu89 og viser R-koden illustrerer dermed hvordan ting gjøres. Det første du skal gjøre er dermed å gjøre det samme på egen datamaskin og sjekke at du får samme resultat. Dette kan gjøres som en enkel “klipp-og-lim” som du neppe lærer så veldig mye av hvis du ikke tenker litt samtidig, men du får i hvert fall sjekket at koden fungerer. For hver operasjon bør du gjøre noen endringer i koden og se hva som skjer. I kapittelet om grafikk kan du f.eks. eksperimentere med å bytte om på variable, endre farger og annet. Slik får du en bedre forståelse av hva de ulike funksjonene og argumentene betyr. En god måte å finne ut av hvordan ting fungerer er å gjøre endringer og se hva som skjer.
1.2 Gjør tilsvarende med datasettet NorLAG
Jo mer du tenker aktivt selv, jo mer lærer du. Bruk et annet datasett og gjør tilsvarende operasjoner som er vist med abu89. Dere får tilgang til et stort datasett fra undersøkelsen NorLAG og kan da undersøke mange muligheter.
Du kan gjerne prøve å replikere noen tidligere studier som du finner i denne publikasjonslista.1 Variabelliste med dokumentasjon finner du filen “Kodebok.html” når du har fått tilgang til delt mappe .
1.3 Bruk helt andre datasett
Det er en god del innebygde datasett i R og i ulike R-pakker. Du kan få en oversikt over tilgjengelig datasett ved funksjonen data() som lister opp de dataene som er tilgjengelig i de pakkene du har lastet for øyeblikket.
causaldata: en pakke med diverse datasett brukt i lærebøker for kausalanalyse. Tilgang: install.packages("causaldata"). For en oversikt, se pakkes dokumentasjon.
gapminder: en pakke med utdrag av Gapminder-data med ulike lands levealder, befolkningsstørrelse og brutto nasjonalprodukt over mange år. Tilgang: install.packages("gapminder")
Når en pakke, f.eks. gapminder, er lastet har du automatisk tilgang til dataene ved å bruke navnet på datasettet i en funksjon som følger:
library(gapminder)summary(gapminder)
country continent year lifeExp
Afghanistan: 12 Africa :624 Min. :1952 Min. :23.60
Albania : 12 Americas:300 1st Qu.:1966 1st Qu.:48.20
Algeria : 12 Asia :396 Median :1980 Median :60.71
Angola : 12 Europe :360 Mean :1980 Mean :59.47
Argentina : 12 Oceania : 24 3rd Qu.:1993 3rd Qu.:70.85
Australia : 12 Max. :2007 Max. :82.60
(Other) :1632
pop gdpPercap
Min. :6.001e+04 Min. : 241.2
1st Qu.:2.794e+06 1st Qu.: 1202.1
Median :7.024e+06 Median : 3531.8
Mean :2.960e+07 Mean : 7215.3
3rd Qu.:1.959e+07 3rd Qu.: 9325.5
Max. :1.319e+09 Max. :113523.1
1.4 Oppgave
Last ned datafilen med navnet smoking.csv i R. Datasettet inneholder 1000 observasjoner basert på et utvalg fra en større populasjon. Det inneholder tre variabler: (1) alder på personen (age), (2) en binær (0 v. 1) indikator på om personen røyker (smoker) og (3) antall gjenstående forventet levealder til personen (years). Utforsk datasettet med tidyverse-kommandoer du har lær.
Lag et plot som visualiserer sammenhengen mellom røyking og forventet levealder for hver aldersgruppe (lag passende aldersgrupper selv). Hva finner du? Forklar.
Bruk en regresjon som predikerer forventet levalder ved hjelp av røykestatus. Hva finner du? Forklar i lys av svaret på det forrige spørsmålet.
Lag en en ny regresjonsmodell hvor du nå kontrollerer for alder. Hva finner du nå? Hva sier dette om det du fant tidligere?
OBS! Å replikere andres studier nøyaktig er langt mer krevende enn man skulle tro. Normalt trenger du at forfatter deler originalt script, men det er ikke alltid lett tilgjengelig, skrevet i et annet programmeringsspråk, inkluderer langt mer avanserte teknikker enn du har lært om, eller bare er generelt uryddig. Så ikke sett det som ambisjon, men få heller inspirasjon til å finne et tema som er litt interessant og søk opp aktuelle variable.↩︎