Es muy común trabajar con datos espaciales (datos asociados a una latitud y longitud, sobre la superficie o a veces en un nivel en la atmósfera o determinada profundidad en el océano) organizados en arrays o polígonos. En este tutorial les proponemos trabajar con datos grillados organizados en tablas. Estas tablas podrían ser data.frames, tibbles o data.tables según la sintaxis y librerías de R que uses normalmente.
Por supuesto ambos enfoques tienen sus pros y sus contras y dependerá de la tarea que se quiere realizar y los datos disponibles en el momento. Para tener en cuenta:
Arrays | Tablas | |
---|---|---|
Pros | * Uso eficiente de la memoria * Enfoque muy difundido * Hay muchas herramientas disponibles | * Permite trabajar los datos como cualquier otros aprovechando librerías conocidas |
Cons | * Es necesario aprender a usar herramientas específicas | * Los data.frames puede ocupan mucha memoria * Algunos cálculos puede tomar mucho tiempo, es necesario optimizarlos |
Sí algún día se te ocurre leer un data.frame con varios millones de filas, es posible que {dplyr} no funcione muy bien, uno de los problemas es que esta librería hace copias de los objetos y si estos ocupan mucha memoria puede ser un problema. Una posible solución es usar la librería {data.table}, que tiene una sintaxis distinta o {dtplyr} que mantiene la sintaxis de {dplyr} con las ventajas de {data.table}. Pero no te preocupes, los datos que usaremos en el tutorial son aptos para cualquier computadora.