PyData Córdoba Argentina 2019 - Presentation: Extracción de secciones de textos [ES]

Saturday 10:00 AM–10:45 AM in Aula Magna UTN

Extracción de secciones de textos [ES]

Gianmarco Cafferata, Francisco Lopez

Audience level:: Intermediate

Description

La sintáctica y semántica dentro de un texto define estructuras cuya complejidad puede escapar a los algoritmos tradicionales. Caracterizar la estructura de un documento nos permite hacer un análisis particular para cada parte de un documento. En esta charla vamos a expĺorar el planteo del problema, algunas soluciones y formas de encarar problemas comunes.

Abstract

Se plantea la tarea de seccionamiento de un documento como un problema de etiquetado de secuencias. Comenzamos con los diferentes métodos de etiquetado, evaluamos resultados y diferencias de modelos subóptimos. Introducimos HMM y CRF incorporando word embeddings y diferentes modelos basados en RNNs, conformando el estado del arte en la solución de este problema.

Finalmente analizamos el beneficio de agregar char embeddings cómo features incorporando redes convolucionales.

Subscribe to Receive PyData Updates

Tickets

Get Now