Stop Fake News

LUNES 24 DE JULIO | Número 1 | Edición Madrid | Precio: Gratuito

Crean un detector de noticias falsas con 'machine learning'

Una estudiante de data science ha desarrollado el proyecto utilizando avanzadas herramientas de aprendizaje automático.

Un usuario consulta las noticias en su móvil. / UNSPLASH.

JAVI GRACIA. Madrid.

Una estudiante de Bootcamp ha creado un sistema que determina si una noticia es falsa o verdadera a través de un modelo predictivo basado en aprendizaje automático (machine learning) y big data.

Natalia Sánchez, que hasta el año pasado se dedicaba a la arquitectura, decidió hace poco darle un nuevo rumbo a su carrera profesional y formarse en ciencia de datos, o como se denomina en inglés: data science.

La estudiante ha desarrollado el proyecto en un tiempo limitado de tan solo 30 días, durante el cual le ha dado tiempo a entrenar al modelo de predicción para que sea capaz de adivinar la veracidad de una noticia.

El detector es capaz de reconocer el tono satírico de un texto

Gracias al entrenamiento del modelo de aprendizaje automático, el detector es capaz de identificar patrones propios de las noticias satíricas y aplicarlos para detectar noticias falsas.

Sánchez ha usado técnicas de web scraping para obtener un corpus de más de 10.000 noticias, tanto de diarios reales como El Mundo, El País o El Diario, como de publicaciones humorísticas como El Mundo Today o Hay Noticia, para ejecutar un modelo predictivo que identifica si una es noticia es verdadera o falsa con más de un 99% de fiabilidad.

El sistema también adivina el periódico en que se publicó la noticia

La científica de datos ha conseguido que el modelo acierte el periódico al que pertenece la noticia en un 85% de los casos.

Sánchez quiere seguir profundizando en el proyecto para mejorar su precisión y ser capaz de predecir aspectos como latendencia ideológica o el posicionamiento de las noticias.

El algoritmo está basado en tecnología 'deep learning'

Con el propósito de que el usuario pueda valerse del modelo desarrollado de una forma sencilla y sin posibilidad de alterar el código, la científica de datos ha conectado el modelo Albert, entrenado con todos los datos de los periódicos, a una interfaz gráfica creada con la librería Streamlit de Python.

«Como primera iteración del modelo predictivo que buscábamos, hemos utilizado el vectorizador TF-IDF junto con una regresión logística, tanto para predecir la veracidad de las noticias como el periódico al que pertenecían», explica la experta. «Probamos también algunos otros modelos, como árboles de decisión, Naive Bayes, Ada Boost o Gradient Boosting. Los resultados ya eran mejores de lo que esperábamos, aun con esta combinación de vectorizador y modelo que no capturaba suficientemente la complejidad de los datos», añade.

La data scientist también utilizó el modelo Doc2Vec, también conocido como Paragraph Vector, que es una técnica de aprendizaje automático desarrollada para representar documentos de texto en forma de vectores densos y continuos. «Es una extensión de Word2Vec que se utiliza para representar palabras como vectores distribuidos y capturar relaciones semánticas entre ellas», ilustra Sánchez. La idea detrás de Doc2Vec es representar de forma vectorial oraciones, párrafos o documentos completos, de forma similar a cómo Word2Vec genera vectores para las palabras.

Una vez entrenado, el modelo Doc2Vec genera un vector de características único para cada documento, que representa su contenido semántico. Después elegimos un modelo de aprendizaje automático adecuado para la tarea de clasificación binaria (verdadero o falso). En este caso, hemos usado la regresión logística ya que habíamos comprobado que daba los mejores resultados.

Ya con un modelo base que, aunque era mejorable, proporcionaba predicciones con cierta solidez y era fácil de manejar, la analista investigó cuáles de los grandes modelos de lenguaje podian encajar mejor con las necesidades del proyecto. Una primera selección incluía Bert, DistilBert, Roberta y Xlnet, entre otros. Finalmente se decantó por DistilBERT, BERT-base y Albert. No con pocas dificultades, finalmente consiguió que funcionaran con algunos ajustes en el batch size del entrenamiento. «Los mejores resultados los conseguimos con el modelo Albert, a pesar de ser el más pequeño de los tres. Todos ellos resultaron más precisos que el modelo base (TF-IDF + Regresión Logística) y con menor sobreajuste, como cabía esperar», explica Sánchez.