Thursday 9:45 a.m.–10:05 a.m.

Data science with docker: simple, reproducible and shareable.

Gabriel Miretti

Audience level:
Intermediate

Description

De acuerdo a Kaggle, los contenedores están en la actualidad haciendo un gran impacto en ciencia de datos. Porque Docker soluciona varios problemas importantes juntos: usar librerías con setups complicados, reproducir sus resultados y compartir implementaciones. En esta charla, vamos a dar una intro mínima de docker, repasar stacks disponibles, y cómo implementar y distribuir experimentos en docke

Abstract

Detailed Abstract

El auge actual en data science, machine learning, big data y deep learning incluye una aparición explosiva de herramientas poderosas que continuamente evolucionan, mejorando en performance, tanto en capacidad como en velocidad. Pero aparejado a esto aparece un efecto secundario no tan simpático: crece la complejidad en los stack de herramientas (comandos, librerías, compiladores, servidores, etc.) y de manera conjunta la dificultad para estar actualizado, aprovechando las últimas mejoras. Incluso para usuarios con background en ingeniería de software.

Por suerte este problema no es único de este campo, y podemos ver que en las aplicaciones distribuidas de gran escala se está resolviendo con contenedores. Docker, una de la plataformas más populares para manejar contenedores está siendo abrazada por la comunidad de data science para distribuir de manera más sencilla sus stacks. La promesa de correr en proceso aislado con solo el stack necesario para tu script, aplicación, etc., con herramientas muy sencillas y una clara separación entre tu SO, el stack y tu aplicación es muy atractiva para no considerarlo.

En esta charla queremos motivar al científico de datos a probar docker y aprovechar sus beneficios:

This 20’ minutes talk would be given in Spanish

Outline:

Subscribe to Receive PyData Updates

Subscribe

Tickets

Get Now