Es muy común trabajar con datos espaciales (datos asociados a una latitud y longitud, sobre la superficie o a veces en un nivel en la atmósfera o determinada profundidad en el océano) organizados en arrays o polígonos. En este tutorial les proponemos trabajar con datos grillados organizados en tablas. Estas tablas podrían ser data.frames, tibbles o data.tables según la sintaxis y librerías de R que uses normalmente.
Por supuesto ambos enfoques tienen sus pros y sus contras y dependerá de la tarea que se quiere realizar y los datos disponibles en el momento. Para tener en cuenta:
Arrays | Tablas | |
---|---|---|
Pros | * Uso eficiente de la memoria * Enfoque muy difundido * Hay muchas herramientas disponibles | * Permite trabajar los datos como cualquier otros aprovechando librerías conocidas |
Cons | * Es necesario aprender a usar herramientas específicas | * Los data.frames puede ocupan mucha memoria * Algunos cálculos puede tomar mucho tiempo, es necesario optimizarlos |
Sí algún día se te ocurre leer un data.frame con varios millones de filas, es posible que dplyr no funcione muy bien, uno de los problemas es que esta librería hace copias de los objetos y si estos ocupan mucha memoria puede ser un problema. Una posible solución es usar la librería data.table, que tiene una sintaxis distinta o dtplyr que mantiene la sintaxis de dplyr con las ventajas de data.table. Pero no te preocupes, los datos que usaremos en el tutorial son aptos para cualquier computadora.