El objetivo de este desafío es que armes un proyecto y que leas una archivo de datos para aplicar lo que aprendas en el resto del curso.
Si te olvidaste cómo se hace, revisa esta sección. Asegurate de usar un nombre descriptivo, asociado a los datos o el análisis que tenés en mente.
Buscá algún set de datos que hayas usado para algo o quieras usar. Puede ser en formato .csv o de Excel. Guardalo en una carpeta llamada “datos” dentro de la carpeta de tu proyecto.
Creá un archivo de RMarkdown (por las dudas, esta es la sección asociada). Además de un título informativo, describí los datos con tus palabras. ¿Cuál es la fuente? ¿Qué variables incluyen? Armá un chunk para leer los datos (podés revisar esta sección y mostralos. ¿Cuántas observaciones tiene? ¿Qué tipo de datos tiene cada columna?
Es posible que necesites alguna nueva variable, por ejemplo la suma
entre otras dos columnas para calcular un total o la diferencia entre
otras dos. La clave será usar la función mutate()
(como
viste en esta
sección) y ya que estamos aplicá otro verbo de {dplyr} para
seleccionar esas nuevas columnas y mostrarlas (fijate acá si
necesitás refrescar la memoria).
Hacé cada operación en un chunk separado explicando en el texto qué hace cada paso, por qué y qué esperás encontrar.
Ahora calculá un promedio o determiná el valor máximo o mínimo de
alguna columna usando summarise()
. Si tu base de datos
tiene alguna variable con categorías, también probá hacer los mismos
cálculos pero agrupando las observaciones (viste esto en
esta sección).
Podés analizar los datos tanto como se te ocurra, la idea es que te familiarices con los verbos de {dplyr} al mismo tiempo que sacas información de la base de datos que estás utilizando.