Sistema de recomendación ontológico basado en análisis de publicaciones escritas de redes sociales
2022
En este documento se trata el desarrollo de un sistema de recomendación que, a partir de las publicaciones escritas de un usuario en redes sociales, ofrece un anuncio publicitario que el usuario pueda percibir positivamente.
Para lograr lo anterior, se realizó una amplia exploración y aplicación de técnicas desde las más tradicionales, hasta el estado del arte en las áreas de Sistemas de Recomendación, Procesamiento de Lenguaje Natural y Machine Learning. En primera instancia, se estudiaron e implementaron sistemas de recomendación basados en las principales técnicas del área, así como técnicas encontradas en la literatura. Algunas de las técnicas valoradas fueron Collaborative Filtering, Content-based Filtering y el método de la similitud coseno.
Se implementaron varios modelos basados en distintas técnicas y modelos de Procesamiento de Lenguaje Natural para la representación de texto, técnicas y modelos como Transformers, BERT, RoBERTa, DistilBERT, Word to Vec (W2V), Bag of Words y Latent Dirichlet Analysis (LDA). Los modelos implementados fueron usados para obtener descriptores de publicaciones en redes sociales y de anuncios publicitarios, descriptores usados para entrenar una serie de clasificadores para evaluar y comparar el desempeño de los modelos de representación de lenguaje. Cada modelo de representación de texto se evaluó con un modelo estándar de clasificación y con una serie de redes neuronales con parámetros y topologías variados.
Todo lo anterior se realizó con un conjunto de datos de 70,000 tweets y un conjunto de datos de 10,000 anuncios publicitarios. Ambos conjuntos de datos fueron extraídos y etiquetados para propósitos de este trabajo. This paper deals with the implementation of a recommender system that, based on the written publications of a user in social networks, offers an advertisement that the user can perceive positively.
To achieve the above, a wide exploration and application of techniques from the most traditional ones to the state of the art in the areas of Recommender Systems, Natural Language Processing, and Machine Learning was carried out. First, recommender systems were studied and implemented based on the main techniques in the area, as well as techniques found in the literature. Some of the evaluated techniques were Collaborative Filtering, Content-based Filtering, and the cosine similarity method.
Several models based on different Natural Language Processing techniques and models were implemented for text representation, techniques and models such as Transformers, BERT, RoBERTa, DistilBERT, Word to Vec (W2V), Bag of Words and Latent Dirichlet Analysis (LDA). The implemented models were used to obtain descriptors from social media posts and advertisements, descriptors were used to train a series of classifiers to evaluate and compare the performance of the language representation models. Each text representation model was evaluated with a standard classification model and a series of neural networks with varying parameters and topologies.
All of the above was performed on a dataset of 70,000 tweets and a dataset of 10,000 advertisements. Both datasets were extracted and labeled for this work.
- Tesis/Trabajos de Grado [257]