En nuestro trabajo de análisis normalmente nos centramos en usar algoritmos que nos permitan ejecutar nuestros objetivos de la manera más eficiente posible. Sin embargo, cuando estamos usando grandes cantidades de datos, los contenedores de esos datos resultan tan importantes o más que los propios algoritmos. En este taller veremos algunos de los más contenedores para Big Data más importantes.
En la actualidad existe una variedad bastante grande de contenedores de datos para almacenar grandes cantidades de datos en Python, tanto en memoria como en disco. En mi taller pasaremos revista a unos cuantos de los más útiles, empezando por los más básicos y generales (listas, diccionarios, NumPy/ndarray, pandas/DataFrames) a los más especializados (RDBMS, PyTables/Table/HDF5, bcolz/carray/ctable). Durante el camino se darán pistas de cuando usar unos u otros dependiendo del caso de uso.
Los asistentes deben asistir con un portatil y con los requisitos listados en https://github.com/FrancescAlted/PyConES2015 debidamente instalados.