Estudio comparativo de técnicas tradicionales del modelado de tópicos frente a redes neuronales artificiales tomando como contexto el discurso digital del autor en la red social Twitter y otras publicaciones
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen en español
Minuto a minuto ideas, pensamientos, opiniones, libros, documentos, mensajes entre otros, son plasmados en el mundo a través de diferentes plataformas digitales disponibles para el uso de la humanidad. Este crecimiento exponencial de textos digitales ha traído diferentes desafíos de cara al análisis, comprensión y entendimiento humano, por ejemplo, entender en un año de publicaciones de un periódico cuál fue el tema principal del que se habló en un país, conocer de los tweets disponibles cuál es el discurso real de un personaje político o extraer los detalles ocultos que se encuentran plasmados en los manuscritos de Leonardo Da Vinci. Realizar cualquiera de estas actividades de parte de un humano podría tomar un tiempo prolongado e indeterminado. Por fortuna, en los últimos años, dentro del campo del aprendizaje automático han surgido diversas técnicas que apoyan esta problemática y delegan este análisis de texto a las máquinas, entre estas se encuentra el modelado de tópicos. Esta propuesta basa su funcionamiento en el marco estadístico buscando apoyar el procesamiento y exploración de grandes volúmenes de textos digitales encontrando en ellos patrones ocultos que a simple vista no son fáciles de encontrar por un humano; es decir, es capaz de procesar colecciones de documentos digitales mostrando el espacio latente de los textos y revelando el significado profundo de la colección, del que se habla realmente.
Resumen en inglés
Minute by minute ideas, thoughts, opinions, books, documents, messages, among others, are captured around the world through different digital platforms available for the use of humanity. This exponential growth of digital texts has brought different challenges in terms of analysis, comprehension and human understanding, for example, understand what was the main topic that was discussed in a country in one year of newspaper publications, know from the available tweets what is the real speech of a political figure or extract the hidden details that are embedded in the manuscripts of Leonardo Da Vinci. Performing any of these activities by a human could take a long and indeterminate amount of time. Fortunately, in recent years, in the machine learning area, several techniques have emerged to tackle this problem e.g., topic modeling, technique that delegate text analysis to machines. Topic modelling bases its operation on the statistical framework to support the processing and exploration of large volumes of digital documents to find hidden patterns in them that at first glance are not easy to see by a human; this technique is able to process collections of digital documents showing the latent space of the texts and revealing the deep meaning of the collection, what being talked about around documents. Today, topic modeling relies on several traditional techniques such as latent semantic analysis (LSA), probabilistic latent semantic analysis (pLSA) and latent Dirichlet attribution (LDA). In parallel, but not different way are the neural networks (NN) in constant growth and adoption due to advances in data processing and storage which have facilitated their training and deployment, neural networks are versatile when processing different types of e.g., digital text. This research presents a comparison of the traditional techniques of topic modeling versus neural networks taking as context the thoughts expressed by different authors in short and long digital documents.