1  Oppgaver

Man lærer aller best ved å jobbe selv og få hjelp underveis. Dette forkurset er derfor lagt opp til at du skal jobbe på egenhånd, og det blir ingen forelesninger. Dette heftet går gjennom hvordan man gjør en rekke praktiske oppgaver med bruk av softwaren R, og dekker dermed grafikk, deskriptiv statistikk, regresjonsmodeller, og statistisk tolkning. Tilhørende er grunnleggende databehandling som jo også trengs.

1.1 Gjør det på egen datamaskin

Heftet bruker gjennomgående et enkelt datasett abu89 og viser R-koden illustrerer dermed hvordan ting gjøres. Det første du skal gjøre er dermed å gjøre det samme på egen datamaskin og sjekke at du får samme resultat. Dette kan gjøres som en enkel “klipp-og-lim” som du neppe lærer så veldig mye av hvis du ikke tenker litt samtidig, men du får i hvert fall sjekket at koden fungerer. For hver operasjon bør du gjøre noen endringer i koden og se hva som skjer. I kapittelet om grafikk kan du f.eks. eksperimentere med å bytte om på variable, endre farger og annet. Slik får du en bedre forståelse av hva de ulike funksjonene og argumentene betyr. En god måte å finne ut av hvordan ting fungerer er å gjøre endringer og se hva som skjer.

1.2 Gjør tilsvarende med datasettet NorLAG

Jo mer du tenker aktivt selv, jo mer lærer du. Bruk et annet datasett og gjør tilsvarende operasjoner som er vist med abu89. Dere får tilgang til et stort datasett fra undersøkelsen NorLAG og kan da undersøke mange muligheter.

Du kan gjerne prøve å replikere noen tidligere studier som du finner i denne publikasjonslista.1 Variabelliste med dokumentasjon finner du filen “Kodebok.html” når du har fått tilgang til delt mappe .

1.3 Bruk helt andre datasett

Det er en god del innebygde datasett i R og i ulike R-pakker. Du kan få en oversikt over tilgjengelig datasett ved funksjonen data() som lister opp de dataene som er tilgjengelig i de pakkene du har lastet for øyeblikket.

  • causaldata: en pakke med diverse datasett brukt i lærebøker for kausalanalyse. Tilgang: install.packages("causaldata"). For en oversikt, se pakkes dokumentasjon.
  • gapminder: en pakke med utdrag av Gapminder-data med ulike lands levealder, befolkningsstørrelse og brutto nasjonalprodukt over mange år. Tilgang: install.packages("gapminder")

Når en pakke, f.eks. gapminder, er lastet har du automatisk tilgang til dataene ved å bruke navnet på datasettet i en funksjon som følger:

library(gapminder)
summary(gapminder)
        country        continent        year         lifeExp     
 Afghanistan:  12   Africa  :624   Min.   :1952   Min.   :23.60  
 Albania    :  12   Americas:300   1st Qu.:1966   1st Qu.:48.20  
 Algeria    :  12   Asia    :396   Median :1980   Median :60.71  
 Angola     :  12   Europe  :360   Mean   :1980   Mean   :59.47  
 Argentina  :  12   Oceania : 24   3rd Qu.:1993   3rd Qu.:70.85  
 Australia  :  12                  Max.   :2007   Max.   :82.60  
 (Other)    :1632                                                
      pop              gdpPercap       
 Min.   :6.001e+04   Min.   :   241.2  
 1st Qu.:2.794e+06   1st Qu.:  1202.1  
 Median :7.024e+06   Median :  3531.8  
 Mean   :2.960e+07   Mean   :  7215.3  
 3rd Qu.:1.959e+07   3rd Qu.:  9325.5  
 Max.   :1.319e+09   Max.   :113523.1  
                                       

1.4 Oppgave

Last ned datafilen med navnet smoking.csv i R. Datasettet inneholder 1000 observasjoner basert på et utvalg fra en større populasjon. Det inneholder tre variabler: (1) alder på personen (age), (2) en binær (0 v. 1) indikator på om personen røyker (smoker) og (3) antall gjenstående forventet levealder til personen (years). Utforsk datasettet med tidyverse-kommandoer du har lær.

Lag et plot som visualiserer sammenhengen mellom røyking og forventet levealder for hver aldersgruppe (lag passende aldersgrupper selv). Hva finner du? Forklar.

Bruk en regresjon som predikerer forventet levalder ved hjelp av røykestatus. Hva finner du? Forklar i lys av svaret på det forrige spørsmålet.

Lag en en ny regresjonsmodell hvor du nå kontrollerer for alder. Hva finner du nå? Hva sier dette om det du fant tidligere?


  1. OBS! Å replikere andres studier nøyaktig er langt mer krevende enn man skulle tro. Normalt trenger du at forfatter deler originalt script, men det er ikke alltid lett tilgjengelig, skrevet i et annet programmeringsspråk, inkluderer langt mer avanserte teknikker enn du har lært om, eller bare er generelt uryddig. Så ikke sett det som ambisjon, men få heller inspirasjon til å finne et tema som er litt interessant og søk opp aktuelle variable.↩︎