Show simple item record

dc.rights.licenseAl consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.spa
dc.contributor.advisorReyes Muñoz, Alejandro 
dc.contributor.advisorLópez Kleine, Liliana
dc.contributor.authorMartínez Villa, María Camila
dc.date.accessioned2020-06-10T08:58:50Z
dc.date.available2020-06-10T08:58:50Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/1992/34158
dc.description.abstractNext Generation Sequencing has moved the Big Data phenomenon into the Biological Sciences, making the understanding of biological data a computational challenge. In consequence, it is important to create tools that exploit human visual skills in the interpretation of this ever-increasing information. However, transforming genomic data into an image with biological meaning is particularly difficult because the information is not comprised in a single variable but a set of them. The distribution of genomic composition embedded in k-mer frequencies (frequencies of all possible substrings of size k) is a suitable approach, since it will allow us to obtain a specific signature of different organisms in order to classify and visualize them. The main goal of this study was to develop an R function to transform a genomic sequence into a specific 2D image based on k-mer frequencies and to proof that this visualization would keep biological relationships of organisms. The function was developed such that it fragments a genome, reduce the dimensionality of genomic composition measurements and assign a specific color (RGB) to each fragment, transforming it into an image pixel. This function was applied to 52 Bacterial genomes observing that related organisms presented similar color pattern across family, class and phylum. Also, a Mantel and Chi-squared tests were performed over two distinct distance matrices, one from pixel features and another from a traditional 16S-based phylogenetic tree, in order to assess statistical similarity of the obtained 2D images to classical phylogeny. In conclusion, image-based tools can help improve genomic comparisons, exploiting human visual capabilities.es_CO
dc.description.abstract"La secuenciación de NGS ha trasladado el fenómeno Big Data a las Ciencias Biológicas, haciendo que la comprensión de los datos biológicos sea computacional un reto. Por lo cual, es importante crear herramientas que exploten la habilidades visuales humanas en la interpretación de información genómica que se encuentra en constante aumento. Sin embargo, el hecho de transformar datos genómicos en una imagen que tenga significado biológico es particularmente difícil porque la información no está comprendida en una sola variable sino en un conjunto de ellas. Por esto, las distribuciones de la composición genómica integrada en las frecuencias de k-mer (frecuencias de todas las subcadenas posibles de tamaño k) es una opcion adecuada, ya que nos permitirá obtener una firma específica de diferentes organismos para clasificarlos y visualizarlos. Asi, el objetivo principal de este estudio fue desarrollar una función R para transformar una genómica secuencia en una imagen 2D específica basada en las frecuencias k-mer y para probar que esto la visualización mantendría las relaciones biológicas de los organismos. La función fue desarrollada tal que fragmenta un genoma, reduce la dimensionalidad de las métricas de composición genómica y asigna un color específico (RGB) a cada fragmento, transformándolo en un píxel de imagen. Esta función se aplicó a 52 genomas bacterianos observando que los organismos más relacionados entre si, presentaron un patrón de color similar a través de familia, clase y phylum. Además, se realizaron pruebas de Mantel y Chi-cuadrado sobre dos matrices de distancia distintas, una de las características de píxeles y otra de una tradicional Árbol filogenético basado en 16S, con el fin de evaluar la similitud estadística de las imágenes en 2D y una filogenia clásica. En conclusión, las herramientas basadas en imágenes pueden ayudar mejorar las comparaciones genómicas, explotando las capacidades visuales humanas."--Tomado del Formato de Documento de Grado.es_CO
dc.format.extent36 hojases_CO
dc.format.mimetypeapplication/pdfes_CO
dc.language.isoenges_CO
dc.publisherUniandeses_CO
dc.sourceinstname:Universidad de los Andeses_CO
dc.sourcereponame:Repositorio Institucional Sénecaes_CO
dc.titleGraphing genomes in 2D, applications of multivariate statistics on the genomic compositiones_CO
dc.typeTrabajo de grado - Maestríaspa
dc.publisher.programMaestría en Biología Computacionales_CO
dc.subject.keywordSecuencia de nucleótidos - Investigacioneses_CO
dc.subject.keywordBioinformática - Investigacioneses_CO
dc.subject.keywordGenómica - Investigacioneses_CO
dc.subject.keywordBig Data - Investigacioneses_CO
dc.publisher.facultyFacultad de Cienciases_CO
dc.publisher.departmentDepartamento de Biologíaes_CO
dc.contributor.juryNiño, Luis Fernando
dc.type.driverinfo:eu-repo/semantics/mastherThesisspa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
dc.description.degreenameMagíster en Biología Computacionales_CO
dc.description.degreelevelMaestríaes_CO
dc.identifier.instnameinstname:Universidad de los Andesspa
dc.identifier.reponamereponame:Repositorio Institucional Sénecaspa
dc.identifier.repourlrepourl:https://repositorio.uniandes.edu.co/spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2spa


Files in this item

Thumbnail

Name: u806887.pdf

This item appears in the following Collection(s)

Show simple item record