Bioinformática (BI)

La computación ha revolucionado la forma de hacer investigación y desarrollo en biología. La disciplina que surge de este cruce, la bioinformática, permite desde analizar gigantescas cantidades de secuencias genómicas para identificar anomalías y recuperar la historia evolutiva, hasta simular el comportamiento de proteínas y sistemas biológicos de modo de predecir el comportamiento in vivo, que es mucho más lento y costoso de evaluar directamente.

Esto conlleva grandes desafíos computacionales, incluyendo el uso intensivo del poder de cómputo y de la capacidad de almacenamiento. Estos desafíos crecen más rápidamente que las capacidades de hardware, por lo que se requieren nuevos algoritmos y métodos de almacenamiento y estructuración de la información que permitan hacer frente a requerimientos cada vez más demandantes sobre datos cada vez más voluminosos.

En el CeBiB trabajamos en nuevos algoritmos y estructuras de datos para hacer frente a estos problemas, centrándonos principalmente en dos áreas:

Estructuras de datos comprimidos: explotación de la redundancia intrínseca en la mayor parte de los grandes conjuntos de datos que están emergiendo, para obtener reducciones de órdenes de magnitud tanto en el espacio de almacenamiento como en los tiempos de procesamiento.

Computación distribuida: explotación de la capacidad de cómputo de muchos procesadores para distribuir los datos y la computación, multiplicando así la memoria disponible para manipular grandes conjuntos de datos en un conjunto de computadores que cooperan para resolver un problema.

Algunos de nuestros proyectos en Bioinformática son:

  • Sistema de Archivos Genómicos Comprimidos (SAGC), plataforma de administración de datos genómicos de una misma especie, que explota la repetitividad resultante para almacenar los datos en forma comprimida transparentemente al usuario, reduciendo el uso de espacio y de tiempo de transmisión y almacenamiento, en cualquier aplicación existente.
  • Sistema de indexación de múltiples genomas de una misma especie que permite buscar eficientemente las ocurrencias de subsecuencias.
  • Sistema para el análisis de redes biológicas y detección de complejos de proteínas mediante el análisis de redes PPI (interacción proteína-proteína).
  • Plataforma de apoyo a la investigación en genética poblacional y evolutiva.
  • Construcción de Modelos a Escala Genómica de diversos microorganismos, entre los que destacan Wolbachia, Streptomyces leeuwenhoekii y Salinispora tropica.
  • Identificación de perfiles mutacionales predictivos de sobrevida en pacientes con cáncer renal.

Publicaciones Recientes:

  • Cecilia Hernandez, Carlos Mella, Gonzalo Navarro, Alvaro Olivera-Napa, and Jaime Araya. Protein Complex Prediction via Dense Subgraphs and False Positive Analysis. Plos ONE 12(9):e0183460, 2017
  • Travis Gagie, Aleksi Hartikainen, Kalle Karhu, Juha Kärkkäinen, Gonzalo Navarro, Simon J. Puglisi, and Jouni Sirén.
  • Document Retrieval on Repetitive Collections.
    Information Retrieval 20:253-291, 2017
  • Gil-Costa, M. Marin, C. Bonacic and R. Solar, “A Graph-based Cache for Large Scale Similarity Search Engines”, Journal of Supercomputing, Springer, 2018. doi.org/10.1007/s11227-017-2207-3
  • Marin, V. Gil-Costa, C. Bonacic and A. Inostrosa-Psijas, “Simulating Search Engines”, IEEE Computing in Science & Engineering, 19(1):62-73, 2017. doi.org/10.1109/MCSE.2017.8

Investigador Principal: Gonzalo Navarro

 

Investigadores Asociados:

Mauricio Marín

Juan Asenjo

Alvaro Olivera

Carlos Conca

Travis Gagie

Carolina Bonanic

Verónica Gil-Costa

 

Postdoc:

José Fuentes