La inteligencia artificial no olvida: advierten sobre los límites para borrar datos sensibles

TARRAGONA. Un estudio de la URV revela que los modelos de IA actuales no pueden olvidar del todo la información personal una vez aprendida, lo que plantea serios retos éticos y técnicos para garantizar la privacidad de los usuarios.

Riesgos de la Inteligencia artificial, imagen ilustrativa.
Riesgos de la Inteligencia artificial, imagen ilustrativa.Saksit Sangtong

Los investigadores han analizado la efectividad de las técnicas de desaprendizaje en modelos de lenguaje extensos como ChatGPT, Mixtral, Bard o Copilot, que tienen como objetivo eliminar información personal, incorrecta o discriminatoria de los sistemas, y concluyen que no existe una fórmula que asegure el olvido total de los datos, salvo volver a entrenar el modelo desde cero sin la información que se desea eliminar.

Según los autores del estudio, esto entra en conflicto con el derecho al olvido, recogido en el Reglamento General de Protección de Datos de la Unión Europea, que obliga a suprimir los datos personales si así lo solicita el interesado.

Las grandes compañías que gestionan estos modelos de IA entrenan sus sistemas con enormes volúmenes de información para mejorar su rendimiento, lo que dificulta la identificación y eliminación selectiva de ciertos datos.

Dos vías para el desaprendizaje

Los investigadores distinguen dos vías para lograr el desaprendizaje: la primera consiste en reentrenar completamente el modelo, pero implica un coste computacional elevado; mientras que la segunda, más eficiente, busca eliminar solo partes concretas de conocimiento sin rehacer el sistema desde cero, aunque no ofrece garantías plenas.

Además, los investigadores apuntan que no se conoce con precisión cómo se almacena la información en los modelos, ni siquiera por parte de quienes los desarrollan.

El estudio concluye que será necesario diseñar nuevas formas de entrenar los modelos de IA pensando desde el inicio en el desaprendizaje, como fragmentar datos de manera que se puedan suprimir partes concretas del conocimiento sin comprometer la totalidad del modelo ni su funcionalidad.

Enlance copiado