PyData Chicago 2016 | Presentation: Machine learning techniques for data cleaning

Sunday 4:30 PM–5:15 PM in Room 2

Machine learning techniques for data cleaning

Cathy Deng

Audience level:: Intermediate

Description

Often, the most interesting datasets - data about people and organizations - are the messiest and most difficult to analyze. When data comes from multiple sources, or when data is entered manually, variation & ambiguity are inevitable. Learn about ways to infer structure and relationships in messy data, using open source Python libraries.

Abstract

How does messiness arise & why is it challenging?
Inferring structure in unstructured strings
NLP parsers for names, organizations, addresses
how to make your own probabilistic string parser
Inferring relationships in datasets
clustering similar rows in a dataset
linking similar rows across datasets
clustering & linking without writing any code, using the dedupe.io interfacce

Sunday 4:30 PM–5:15 PM in Room 2

Machine learning techniques for data cleaning

Cathy Deng

Description

Abstract

Sponsors

Become a sponsor.