<- mutate(dinedata, nyvariabel = x + z) nyttobjekt
13 Datahåndtering med Tidyverse
Et helt vanlig problem er at data i den virkelige verden ofte er ganske grisete. Det er mye rot, manglende verdier, andre kategorier enn du er interessert i osv. Kort sagt: dataene er ikke helt slik de bør være for at du skal kunne gjøre den analysen du har tenkt til. Altså må du fikse dataene før du får estimert det du har tenkt. Enten dette gjelder grafikk, tabeller eller regresjonsmodeller.
Tidyverse er en rekke funksjoner som til sammen utgjør et programmeringsspråk for datahåndtering. Dette er en variant av R, som vi kan si er en dialekt av R. Det finnes andre dialekter, men vi anbefaler sterkt å lære tidyverse godt først.
De grunnleggende verbene gjør noe med dataene, så da er altså dataene substantivene.
13.1 Lage ny variabel: mutate
Alle verbene i tidyverse starter med å angi hvilket objekt man skal gjøre noe med, altså datasettet.
Her er et eksempel der man lager en ny variable som summen av eksisterende variablene x og z.
Her er et eksempel der man lager to variable samtidig der den andre er x delt på z.
<- mutate(dinedata, nyvariabel = x / z,
nyttobjekt nyvariabel2 = x + z)
13.2 Rørlegging: Hva i alle dager betyr %>%
??
Symbolet %>%
kalles in “pipe” eller på norsk: rørlegging. Det betyr at det som står til venstre flyttes over til høyre. Eller sagt på en annen måte betyr det: “Gjør deretter følgende”. Vi vil bruke denne syntaxen konsekvent fra nå når vi introduserer de ulike “verbene”.
<- dinedata %>%
nyttobjekt mutate(nyvariabel = x / z,
nyvariabel2 = x + z)
Denne koden sier følgende, linje for linje:
- lag en kopi av
dinedata
og lagre det inyttobjekt
^deretter gjør du følgende:^ - lag de nye variablene
nyvariabel
som får verdier fra variablene x delt på y - og
nyvariabel2
som summen av x og z