La sintáctica y semántica dentro de un texto define estructuras cuya complejidad puede escapar a los algoritmos tradicionales. Caracterizar la estructura de un documento nos permite hacer un análisis particular para cada parte de un documento. En esta charla vamos a expĺorar el planteo del problema, algunas soluciones y formas de encarar problemas comunes.
Se plantea la tarea de seccionamiento de un documento como un problema de etiquetado de secuencias. Comenzamos con los diferentes métodos de etiquetado, evaluamos resultados y diferencias de modelos subóptimos. Introducimos HMM y CRF incorporando word embeddings y diferentes modelos basados en RNNs, conformando el estado del arte en la solución de este problema.
Finalmente analizamos el beneficio de agregar char embeddings cómo features incorporando redes convolucionales.