Lo que aprendí en LatinR 2019
Hace unas semanas volví de Santiago de Chile luego de ir a Latinr 2019. Igual que el año pasado, fue una experiencia divertida. Estas son algunas de las cosas que me llamaron la atención.
Workshops
A la mañana del primer día asistí al workshop de Mine Çetinkaya-Rundel sobre enseñanza de R. Ejemplificó algunos principios básicos a la hora de diseñar clases. La idea de “dejales comer el pastel primero” creo que es la principal enseñanza. No empezar con las nimedades aburridas de la programación, sino con un pantallazo general que muestre todo el poder de R y, en particular, R Markdown.
Luego experimentamos en primera persona cómo usar RStudio Cloud y el paquete ghclass para administrar un curso. Yo soy un poco reticente a depender de plataformas en “la nube” (que es el disco rígido de otro), pero aún así veo que hay muchísimo potencial. Es maravilloso poder abrir el explorador y empezar a correr R sin preocuparse por instalar cosas en las computadoras de los estudiantes. Uno se libera de los dolores de cabeza de las librerías de sistema, las diferencias entre linux, windows y mac, y no requiere una laptop potente.
La noticia es que apenas una semana luego de hacer el workshop, mi novia yo yo aplicamos lo que aprendimos en una pequeña clase que dimos para una materia de la facultad. La clase fue un éxito rotundo (lo que no quiere decir que no haya cosas para mejorar). Los materiales están acá.
Otra potencial aplicación de Rstudio Cloud es la de crear demos de paquetes. Es decir, una especie viñetas interactivas que se pueden seguir sin necesidad de instalar el paquete en la computadora. Por ejemplo, si entran al demo de ggnewscale se van a encontrar con un entorno que tiene el paquete ggnewscale ya instalado junto con un script de ejemplo. El entorno podría incluir bases de datos de ejemplo demasiado pesadas para empaquetar en CRAN.
Charlas que me resultaron interesantes
Como el congreso tuvo sesiones en paralelo, por desgracia me perdí la mitad de las charlas. Estas son sólo algunas que me llamaron la atención de la mitad a las que sí pude ir.
Juan Cruz Rodriguez mostró su trabajo con el paquete autokeras (Auto-Keras: An R easily accessible deep learning library). Es la primera vez que escuché hablar sobre auto machine learning. Resulta interesante y a la vez preocupante. Es más que conocido el abuso y mal uso que se hace de los algoritmos de machine learning y lo peligroso que es usar modelos ciegamente sin apreciar las suposiciones que acarrean tanto el modelo como los datos que se usaron para entrenarlo. Por otro lado, estoy seguro que va a ser muy útil para usar como “baseline” en futuros desarrollos. Si te pasaste semanas rompiéndote el bocho desarollando la arquitectura de una red neuronal que luego es peor que una entrenada “ciegamente”, ¿vale la pena?. Claro que todo esto lo úncio que hace es pasar la discusión a otro nivel de abstracción. Ahora hay cientos de parámetros y métodos de auto machine learning. ¿Para cuando el auto auto machine learning para optimizarlos?
La presentación “¿Quienes investigan sobre género?” de Juan Pablo Sokil me pareció refrescante porque toca el tema inverso a lo que generalmente se habla. Mostró que las publicaciones en temáticas de género están dominadas por mujeres y que los pocos hombres que publican lo hacen en áreas que tocan el género de forma secundaria, principalmente en cuestiones de medicina.
Algo que me toca de cerca fue la presentación de Javier Fajardo “GCM compareR: una aplicación web para evaluar escenarios de cambio climático”. Con su equipo armaron una aplicación web para comparar las salidas de los distintos miembros de los Modelos de Circulación Global. Yo justamente estoy empezando a usar los modelos climáticos del CMIP6 y me encuentro con esos problemas. Habiendo tantos modelos distintos, cada uno con varios miembros, ¿cómo elijo los mejores o el conjunto más variado? Su herramienta está pensada más para la biología que las meteorología, pero es posible que me sirva.
Francisco Zambrano explicó su trabajo que, además de estar relacionado con mi área, es más munución para la guerra sobre deep learning. En “Predicción de la sequía agrícola en Chile: regresión lineal vs deep learning” mostró los resultados de aplicar regresión lienal y deep learning en datos geoespaciales. La conclusión no es demasiado sorprendente: la regresión fue tan buena (o mala) como el deep learning. Esto va en línea con otras investigaciones que ponen en duda la supremacía del “machine learning” sobre “métodos estadíscitos” clásicos. La moraleja es que antes de “meterle machine learning a todo”, hay que reflexionar bien sobre el tipo y la cantidad de datos que uno tiene.
Siguiendo con el tema de los datos geográficos, Antonio Vazquez Brust dio una clase de ruteo en “Mapeando la Vulnerabilidad Sanitaria en Argentina con R”. Se pasaron con su trabajo en crear un mapa de la distancia media a hospitales. Lo lindo fue que la charla de Antonio fue ultra didáctica, explicando paso a paso todo lo que hicieron; ¡fue casi un tutorial! Resalto la importancia de OpenStreetMaps como alternativa abierta a Google Maps. Ya tengo ganas de hacer algo parecido pero usando la red de estaciones de bicicletas públicas de la Ciudad de Buenos Aires.
Finalmente, por motivos egoístas hay dos presentaciones que no podría dejar de resaltar. Mi charla se tituló “Si te gusta la estadística, bancate los metámeros”, basada en este artículo publicado en el blog. Paola Corrales presentó el paquete rvad: perfiles verticales de viento a partir de datos de radares meteorológicos que desarrollamos juntos. Es la implementación de un algoritmo para obtener perfiles verticales de viento a patir de datos de radares meteorológicos.
Charlas plenarias
Mine Çetinkaya-Rundel dio su charla titulada “R 4 All: Welcoming and inclusive practices for teaching R”. Para alguien que además de usar R, le gusta enseñar R, esta charla fue excelente. Mine dio una gran cantidad de principios básicos para mejorar el ambiente de una clase o taller. Como dije arriba, mi novia y yo tuvimos la oportunidad de aplicar algunos de ellos pocos días luego de volver a Buenos Aires. El resultado fue muy bueno, me parece. Además de que fue divertido y llevadero, recibimos buen feedback directo de los estudiantes.
“Automatic Machine Learning with H2O” de Erin LeDell fue una buena oportunidad escuchar a Erin explicando cómo funciona H2O en general y e Auto Machine Learning en particular. No es algo que le vea aplicación directa en mi trabajo, pero está bueno tenerlo en mente.
En “The many backends of dplyr” Hadley Wickham mostró cómo funcionan dos paquetes que extienden la funcionalidad de dplyr para otras clases de data.frames. El paquete dtplyr permite usar los verbos de dplyr para manipular data.tables y dbplyr hace lo mismo con bases de datos. Yo soy un declarado fan de la sintaxis de data.table, pero entiendo que no sea para todos.
Fuera de programa
Como en toda conferencia, los eventos principales son las conversaciones informales durante el coffee break, el almuerzo y las salidas nocturnas con cerveza. 🍺
Tuve la oportunidad de hablar con Hadley sobre algunos proyectos que tengo en mente. Entre otras cosas, hablamos sobre cómo tener documentación multilingüe. Hace rato que la comunidad reconoce la falta de recursos en idiomas distintos al inglés y existen varios proyectos para rellenar este bache. Están los esfuerzos de traducción de libros como R para ciencias de datos, lecciones de The Carpentries y #DatosDeMiércoles. Pero algo que falta es traducir la documentación técnica de los diversos paquetes del ecosistema de R. ¿Cómo hacerlo? ¿Cómo implementarlo dentro de R?
Latinr 2020!
Ya se está gestando LatinR 2020, que va a ser en Montevideo, Uruguay. No puedo esperar a “cruzar el charco” y conocer más gente de la comunidad R oriental.