Búsqueda de regiones informativas en genomas virales
Author: Moreno Gallego, Jaime Leonardo
Director(s)/Advisor(s): Reyes Muñoz, Alejandro
; Restrepo Restrepo, Silvia
; Anzola Lagos, Juan Manuel



Publication date: 2016
Content type: masterThesis
Keywords:
Abstract:
En el mundo de los viromas domina lo desconocido y para su caracterización no se conocen muchos esfuerzos diferentes a la comparación de secuencias contra bases de datos públicas. Mas aún, a la fecha no se conoce un proceso formal de cómo asignar secuencias metagenómicas en la clasificación viral actual propuesta por la Comisión Internacional de Taxonomía Viral. Este estudio muestra el proceso de construcción de los ViPhOGs (Grupos de Ortólogos de Virus y Fagos) y el uso de un algoritmo de aprendizaje tipo Random Forest para resolver el problema de clasificación taxonómica viral dada la presencia característica de ViPhOGs en un conjunto de virus de acuerdo a su afiliación taxonómica. Para esto todos los genomas de virus almacenados en las bases de datos públicas del NCBI fueron descargados, analizando un total de 13,999 genomas, 442,007 proteínas y estableciendo un conjunto de 31,150 ViPhOGs Unknown governs viral world while all strategies for their characterization are based on sequence comparison against public databases; a vicious cycle for the scientific community working in viral metagenomics. Moreover, there is no formal method that describes how metagenomic sequences might be attached to the taxonomy established by the International Comitee on Taxonomy of Viruses. This work shows the construction process of ViPhOGs (Virus and Phages Orthologs Groups) and the use of Random Forest machine learning technique as a strategy to resolve the taxonomy of virus. All viral genomes from NIH public databases were downloaded and semi-automatically cleaned. A final set of 13,999 genomes, 442,007 proteins and 31,150 ViPhOGs was obtained. Viral classification at order, family and genus levels was convincingly resolved (classification scores higher than 97%) finding characteristic ViPhOGs for several taxonomic labels. Those ViPhOGs might be used as signature regions for the taxonomic assignment of metagenomic sequences