Multi-omic data integration using kernel-based non-negative matrix factorization approach to identify and analyze co-modules in lung adenocarcinoma
2021
Multi-omic data integration is a topic of great interest as it enables to analyze vast amount of biological data and contribute to the understanding of the biological processes underlying in organisms. Multiple machine learning techniques have been proposed to ingrate biological data. Some of the most widely used and promising techniques, are extensions of the Non-negative Matrix Factorization (NMF) method. However, none of the NMF extensions have simultaneously addressed the integration of multiple inputs coming from different sources and the nonlinear relationships inherent in biological process. In this paper, we propose a kernel-based NMF approach that aims to integrate multiple inputs coming from two different sources, including previous knowledge and nonlinear relationships. The proposed kernelized technique and the non-kernelized one, were implemented and tested with lung adenocarcinoma (LUAD) information of three different omic profiles coming from an experimental and an observational data source. The performance of the methods was evaluated and contrasted using cophenetic coefficient, AUC and a biological score. The results show that kernelized technique greatly overcome the performance of the standard one, in all metrics. The proposed method enables to identify molecule co-modules that were enriched in pathways tightly related to lung cancer emergence and progression. Also, analysis of enriched co-modules and their relevant pathways enable to identify genes and genes regulators with a key role in lung tumorigenesis and propose them as potential biomarkers. La integración de datos multiómicos es un tema de gran interés ya que permite analizar una gran cantidad de datos biológicos y contribuir a la comprensión de los procesos biológicos subyacentes en los organismos. Se han propuesto múltiples técnicas de aprendizaje automático para integrar datos biológicos. Algunas de las técnicas más utilizadas y prometedoras son las extensiones del método Non-negative Matrix Factorization (NMF). Sin embargo, ninguna de las extensiones de NMF ha abordado simultáneamente la integración de múltiples entradas provenientes de diferentes fuentes y las relaciones no lineales inherentes a procesos biológicos. En este artículo, proponemos un enfoque NMF basado en kernels que tiene como objetivo integrar múltiples entradas provenientes de dos fuentes diferentes, incluido el conocimiento previo y las relaciones no lineales. La técnica kernelizada propuesta y la no kernelizada fueron implementadas y probadas con información de adenocarcinoma de pulmón (LUAD) de tres perfiles ómicos diferentes provenientes de una fuente de datos experimental y observacional. El desempeño de los métodos fue evaluado y contrastado usando coeficiente cofenético, AUC y puntaje biológico. Los resultados muestran que la técnica kernelizada supera en gran medida el rendimiento de la estándar, en todas las métricas. El método propuesto permite identificar co-módulos de moléculas enriquecidos en vías estrechamente relacionadas con la aparición y progresión del cáncer de pulmón. Asimismo, el análisis de co-módulos enriquecidos y sus rutas relevantes permite identificar genes y reguladores de genes con un papel clave en la tumorigénesis pulmonar y proponerlos como posibles biomarcadores.
- Tesis/Trabajos de Grado [698]