El paquete por excelencia para trabajar con fechas y horas es
{lubridate} que forma parte del mundo de tidyverse como (casi) todos los
paquetes que usamos hasta ahora. Si normalmente usas
library(tidyverse)
para cargar los paquetes, tené en cuenta
que {lubridate} no se carga automáticamente. Así que arranquemos por lo
primero.
library(lubridate)
library(dplyr)
library(readr)
Creando fechas y horas
R maneja fechas y fechas y horas y para esto tiene los tipos de datos
<date>
y <dttm>
y si bien
internamente esos datos se almacenan como números enteros (por ejemplo
cantidad de segundos desde el 1 de enero de 1970) con lubridate casi no
tenemos que preocuparnos de eso y podemos trabajar con fechas como seres
humanos.
Es posible que al leer bases de datos algunas columnas con este tipo
de información sea leída como cadena de caracteres, por ejemplo
“25-Oct-1990”. Esto se puede solucionar tanto en la lectura de los datos
como luego usando lubridate. Veamos lo segundo.
Vamos a trabajar con una base de datos de reportes de eventos severos
reportados por personas durante la campaña RELAMPAGO que se
llevó a cabo en Argentina entre octubre y diciembre de 2018.
Los reportes se recolectaron a través de un formulario de google que
entre otros datos pedía: el tipo de evento o eventos observados, el
lugar y horario de ocurrencia del evento.
reportes <- read_csv("https://raw.githubusercontent.com/paocorrales/r4ds-notas/master/examen/eventos_severos_RELAMPAGO.csv")
## Rows: 1421 Columns: 4
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): fecha, evento
## dbl (2): lat, lon
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
glimpse(reportes) # ¿qué pinta tiene?
## Rows: 1,421
## Columns: 4
## $ fecha <chr> "10/29/2018 22:05:00", "10/30/2018 13:00:00", "10/30/2018 10:00…
## $ lat <dbl> -33.11956, -32.95214, -32.85000, -33.27861, -31.39905, -31.7598…
## $ lon <dbl> -64.32797, -60.76837, -61.25000, -65.61417, -64.33477, -65.0016…
## $ evento <chr> "Ráfagas y/o vientos intensos", "Rayos y/o truenos", "Granizo",…
Tip: las funciones read_*()
puede leer
bases de datos desde urls! en este caso es un archivo guardado en un
repositorio de GitHub.
La base de datos tiene 4 variables, la fecha (que R no reconoció como
tal), la ubicación en latitud y longitud y el tipo de evento.
Arreglemos la variable fecha. Para eso usaremos una familia de
funciones de lubridate que convierten una cadena de caracteres o números
en fechas y fechas y horas.
En este caso el formato de la fecha en la base de datos es “mes / día
/ año hora : minutos : segundos” y conociendo el orden de las
componentes podemos elegir la función necesaria. En este caso será
mdy_hms()
que viene justamente de month,
day, year, hour,
minute y second, las componentes en
inglés.
reportes <- reportes %>%
mutate(fecha_convertida = mdy_hms(fecha))
reportes %>%
pull(fecha_convertida) %>% # Necesitamos extraer el vector para ver la zona horaria.
.[1] # Extraemos el primer elemento
## [1] "2018-10-29 22:05:00 UTC"
Por defecto cualquiera de las funciones de la familia
ymd_hms()
le asigna la zona horaria UTC a la variable de
salida. Nos vamos a ocupar de esto más adelante pero es importante
conocer los metadatos de esta base de datos, ¿las horas estarán en hora
local o en UTC?
Desafío:
- Revisá la documentación de la familia de funciones
ymd_hms()
y las funciones ymd()
par ver que
combinaciones posibles existen.
- ¿Cual de todas las funciones usarías si tenés que convertir a fecha
y hora los siguientes elementos:
- “2018-11-22 12:00:00”
- 15092020
- “10/31/1998”
- 20181122150000
Si en vez de tener la información de la fecha u fecha y hora en una
sola columna, la tenemos en distintas columnas (el mes por un lado, el
día por el otro, ect.), existen un par de funciones que permiten armar
la variable: make_date()
y make_datetime()
. Si
quisiéramos armar la fecha 25 de octubre de 1990 tendríamos que usar la
siguiente línea de código:
make_date(year = 1990, month = 10, day = 25)
## [1] "1990-10-25"
O una fecha y hora, por ejemplo el 14 de agosto de 1988 a las 13
horas (por ahora UTC, ya nos meteremos en ese berenjenal al final de
este episodio).
make_datetime(year = 1988, month = 8, day = 14, hour = 13)
## [1] "1988-08-14 13:00:00 UTC"
Por supuesto podríamos guardar esas fechas en variables o usar las
funciones dentro de mutate()
para generar columnas nuevas
en un data frame.
Sus componentes
Ahora que sabemos como armar fechas, es posible que te estés
preguntando como desarmarlas o como extraer sus componentes. Algo de
esto ya hicimos al graficar temperaturas medías mensuales pero vamos a
revisarlo.
{lubridate} tiene toda una familia de funciones que permiten extraer
las componentes de una variable fecha u fecha y hora. Acá la clave es
recordar los nombres en inglés (no nos queda otra!), por ejemplo si
queremos el mes, la función será month()
.
Veamos como funciona.
reportes %>%
mutate(mes = month(fecha_convertida),
dia = day(fecha_convertida))
## # A tibble: 1,421 × 7
## fecha lat lon evento fecha_convertida mes dia
## <chr> <dbl> <dbl> <chr> <dttm> <dbl> <int>
## 1 10/29/2018 22:05:00 -33.1 -64.3 Ráfagas y/o … 2018-10-29 22:05:00 10 29
## 2 10/30/2018 13:00:00 -33.0 -60.8 Rayos y/o tr… 2018-10-30 13:00:00 10 30
## 3 10/30/2018 10:00:00 -32.8 -61.2 Granizo 2018-10-30 10:00:00 10 30
## 4 10/29/2018 19:00:00 -33.3 -65.6 Granizo 2018-10-29 19:00:00 10 29
## 5 10/30/2018 12:50:00 -31.4 -64.3 Granizo 2018-10-30 12:50:00 10 30
## 6 11/3/2018 10:35:00 -31.8 -65.0 Rayos y/o tr… 2018-11-03 10:35:00 11 3
## 7 10/29/2018 22:00:00 -33.1 -64.3 Ráfagas y/o … 2018-10-29 22:00:00 10 29
## 8 11/3/2018 13:45:00 -31.4 -64.6 Lluvias inte… 2018-11-03 13:45:00 11 3
## 9 11/3/2018 14:37:00 -31.1 -64.3 Rayos y/o tr… 2018-11-03 14:37:00 11 3
## 10 11/3/2018 14:10:00 -31.2 -64.5 Granizo 2018-11-03 14:10:00 11 3
## # … with 1,411 more rows
En particular la componente día tiene toda una subfamilia de
funciones para extraer el día del año, el día del mes o el día de la
semana!
Desafío
- Extraé el día de la semana generando una nueva columna en la base de
datos
reportes
que se llame dia_semana
. (Psss!
la función se llama wday()
).
- Ahora intentalo de nuevo pero cambiando el argumento label a
TRUE
. ¿Qué ocurre? ¿Cambia el tipo de datos?
Zonas horarias
Cuando trabajamos con datos temporales y específicamente aquellos que
tienen fecha y hora una de las consideraciones que tenemos que tener en
cuenta es la zona horaria. Por defecto {lubridate} y la ciencia en
general trabaja en hora UTC (o Coordinated Universal Time) pero
es posible que nuestros datos estén almacenados en una zona horaria
totalmente distinta.
En este caso, los reportes tienen la hora a la que ocurrió el evento
en Argentina. Por esto podemos inferir que la zona horaria es
-3. Esto significa 3 horas menos respecto de la hora
UTC. ¿Cómo le avisamos a R?
Todas las funciones de la familia ymd_hms()
tiene un
argumento tz
que permite cambiar la zona horaria. El truco
está en saber la nomenclatura de zonas horarias.
head(OlsonNames()) # Lista de las más de 600 zonas horarias disponibles
## [1] "Africa/Abidjan" "Africa/Accra" "Africa/Addis_Ababa"
## [4] "Africa/Algiers" "Africa/Asmara" "Africa/Asmera"
Sys.timezone() # ¿En qué zona horaria está mi computadora?
## [1] "America/Argentina/Buenos_Aires"
Podemos usar esa información en el argumento tz
.
reportes <- reportes %>%
mutate(fecha_convertida_tz = mdy_hms(fecha, tz = "America/Argentina/Buenos_Aires"))
reportes %>%
pull(fecha_convertida_tz) %>% # Necesitamos extraer el vector para ver la zona horaria.
.[1]
## [1] "2018-10-29 22:05:00 -03"
