Saturday 4:00 p.m.–4:20 p.m.

Aprendizaje de representaciones latentes en redes de interacciones de proteínas

Agustina Dinamarca

Audience level:
Intermediate

Description

Se evalua la capacidad predictiva de una familia de técnicas de aprendizaje de representaciones latentes aplicadas a redes de interacciones de proteínas. Las representaciones latentes son subespacios de baja dimensionalidad que contienen la mayor parte de la información de un conjunto de datos. La aplicación de estas técnicas a redes complejas es un campo que no ha sido completamente explorado.

Abstract

Las redes, de manera general, están compuestas por nodos que representan ciertas entidades y enlaces que los conectan cuando existen determinadas interacciones entre ellos. Por lo tanto, el estudio de redes es el estudio de representaciones convenientes de interacciones entre entidades.

Un área en donde este tipo de representación ha demostrado ser útil es en bioinformática, en particular referente a sistemas de interacciones de proteínas de una especie. Las interacción entre proteínas se debe al encaje mecánico a partir de su geometría (complementaria), es decir la forma que adquieren debido a la manera de plegarse sobre sí mismas.

Representando la mayor cantidad de interacciones conocidas entre proteínas para una dada especie, es posible construir una red asociada, donde los nodos corresponden a las proteínas y un enlace entre dos proteínas representa un interacción entre ellas demostrada experimentalmente.

Las redes resultantes son altamente no triviales y la estructura resultante contiene nueva información que permite avanzar en la comprensión del sistema como un todo.

Por otro lado, una red como la red proteína-proteína puede adquirir un tamaño y complejidad considerables y puede ser de gran utilidad encontrar maneras de representar la red en un subespacio continuo (una representación latente), al que se podría llegar a través de una transformación de los datos, de manera análoga a la reducción de dimensionalidad de un conjunto de datos multivariados. Transformados de esta manera, se abre la posibilidad de estudiar la red a través de técnicas estadísticas convencionales.

En el presente trabajo se explora una familia de algoritmos matemáticos y sus implementaciones numéricas, con el objetivo de encontrar ('aprender') subespacios de redes complejas que convenientemente contengan la mayor parte de la información útil de una red compleja.

Se estudian una familia de algoritmos basados en caminantes aleatorios deepwalk, LINE, node2vec aplicadas a datos reales de nueve especies de sistemas proteína-proteína (humano, levadura, ratón, bacteria, etc.). Los nueve conjuntos de datos representan redes entre Nmin y Nmax, y provienen de datos experimentales curados por especialistas del área de bioinformática.

Las simulaciones se desarrollan en el lenguaje Python, un lenguaje de prototipado y simulación moderno que cuenta con una amplia gama de librerías especializadas y cuya comunidad científica ha crecido de manera exponencial en los últimos años. Algunos de los algoritmos que se utilizarán se encuentran implementados y a disposición pública.

Subscribe to Receive PyData Updates

Subscribe

Tickets

Get Now