Por: Carlos A. FERREYROS SOTO
Doctor en Derecho
Universidad de Montpellier I Francia.
cferreyros@ferreyros-ferreyros.com
RESUMEN
La Autoridad Nacional de Protección de Datos, CNIL, ha
anunciado varias iniciativas sobre IA, en particular sobre modelos de código
abierto. Sin embargo, la descripción precisa de una "herramienta de
trazabilidad", publicada el 18 de diciembre de 2025, aún no está
disponible públicamente. Sin embargo, presenta un resumen basado en las
directrices ya formalizadas por la CNIL en materia de IA, modelos de código
abierto y trazabilidad, que describe los objetivos de dicha herramienta.
En julio de 2025, la CNIL finalizó las recomendaciones
sobre el desarrollo de sistemas de IA, con especial énfasis en la documentación
de modelos, la seguridad y la anotación de los datos de entrenamiento. Declaró
explícitamente que se dedicaría un trabajo específico a los modelos
distribuidos como código abierto, con el fin de aclarar su conformidad con el
RGPD.
El objetivo declarado de la CNIL es proporcionar a los
desarrolladores y proveedores de modelos un método práctico para determinar si
un modelo procesa o almacena datos personales y, por lo tanto, si está dentro
del ámbito de aplicación del RGPD. Esta herramienta también pretende
transformar las recomendaciones legales en mecanismos técnicos concretos
(biblioteca de software, pruebas,
indicadores) para documentar y demostrar la conformidad de los modelos,
incluidos los publicados como código abierto.
Según la hoja de ruta publicada por la CNIL, la
herramienta debería adoptar la forma de una biblioteca de software que permita a los usuarios evaluar si un modelo permite la
extracción de datos personales de su entrenamiento. Debería ayudar a
caracterizar los medios que razonablemente se puedan implementar para la
extracción de datos, un punto central en el análisis del estado del modelo
según el RGPD.
En un resumen de la consulta pública, la CNIL anunció la
preparación de contenido dedicado a los modelos distribuidos como código
abierto. La herramienta de trazabilidad se enmarca en este enfoque: ofrecer un
marco operativo para la publicación de un modelo de código abierto, respetando
los requisitos de documentación, análisis de riesgos de reidentificación y
legalidad de los conjuntos de datos de entrenamiento.
Para los proveedores de modelos, la herramienta está
diseñada como una herramienta de autoevaluación y de apoyo a la evidencia: les
permitirá registrar las pruebas de memorización, la probabilidad de
reidentificación y los criterios técnicos utilizados, con el fin de generar
esta documentación en caso de una auditoría por parte de una autoridad de
protección de datos. Traducido por el suscrito de: https://www.cnil.fr/fr/la-cnil-publie-un-outil-pour-la-tracabilite-des-modeles-dia-publies-en-source-ouverte
A fin de acceder a normas similares y
estándares europeos, las empresas, organizaciones públicas y privadas interesadas
en asesorías, consultorías, capacitaciones, estudios, evaluaciones, auditorías
sobre el tema, sírvanse comunicar al correo electrónico:cferreyros@ferreyros-ferreyros.com
_____________________________________________
La CNIL publica una
herramienta para la trazabilidad de los modelos de IA publicados en código
abierto
18 de diciembre de 2025
La CNIL pone a disposición un demostrador
para navegar a través de la genealogía de los modelos de IA publicados en código
abierto y estudiar la trazabilidad de este ecosistema, en particular para
facilitar el ejercicio de los derechos de oposición, acceso o supresión.
· I
Trazabilidad de modelos de IA de código abierto
La disponibilidad de modelos de IA como código abierto
permite ofrecer esta tecnología a un público más amplio. Investigadores,
empresas, incluso, particulares pueden acceder a numerosos modelos para diversos usos, como la generación de texto o imágenes, la
traducción o la transcripción de audio.
Muchos usuarios también descargan estos modelos para
modificarlos o especializarlos en una tarea específica utilizando nuevos datos.
A menudo, estos nuevos modelos vuelven a estar disponibles como código abierto.
Así, cada modelo disponible en código abierto forma parte de una genealogía, constituída por el conjunto de todos los modelos:
- del cual se origina directamente o después de varias modificaciones (sus ascendientes);
- a los cuales contribuyó a la constitución (sus descendientes).
Poder describir e investigar en una genealogía
de un modelo de IA de código abierto es un paso esencial para comprender cómo
se construyó un modelo.
La memorización* de los Modelos de IA y el RGPD
La comunidad académica ha establecido desde hace
tiempo que a menudo es posible extraer informaciones sobre la base del conjunto de datos de
entrenamiento de un modelo de IA simplemente a través del acceso a éste. Este fenómeno se
manifiesta mediante la regurgitación de modelos generativos, cuando generan
datos muy similares a elementos del conjunto de datos de entrenamiento, pero no
se limitan a él (véase, por ejemplo, el artículo « Una breve taxonomía de ataques a sistemas de IA »).
Cuando un modelo ha sido entrenado parcialmente con datos personales (lo que generalmente es el caso de la IA generativa), el Comité Europeo de Protección de Datos afirmó en su opinión que en la mayoría de los casos este debería considerarse sujeto al RGPD. El responsable del tratamiento de datos**, podrá demostrar, no obstante, en particular mediante pruebas, que no es posible extraer o deducir datos personales del modelo y que el RGPD no sería aplicable.
Un experimento para estudiar la IA de
código abierto
En este contexto, la CNIL (Autoridad Nacional de Protección
de Datos) realizó un experimento para explorar posibles escenarios de ejercicio
de los derechos de oposición, acceso y supresión de las personas cuyos datos se
almacenan en un modelo de IA de código abierto. La primera etapa consiste en
identificar, partiendo del conocimiento que un modelo ha memorizado los
datos de una persona, los otros modelos de su genealogía que serian susceptibles de haber sido igualmente memorizado esos datos.
Para ello, el servicio de IA de la CNIL ha
desarrollado, en colaboración con el Laboratorio de Innovación Digital (LINC)
de la CNIL, una herramienta de demostración que permite explorar la genealogía
de un modelo de IA presente en la plataforma HuggingFace.
Texto de referencia
La herramienta
·
Experimente con la herramienta en la plataforma
HuggingFace
·
Lea el artículo que presenta el experimento.
· #Inteligencia Artificial (IA) · #Fuentes abiertas · #Derechos humano · #LINC
* La memorización de datos de entrenamiento por parte de un modelo de IA tiene lugar cuando el modelo aprende informaciones específicas de todos o una parte de los datos de entrenamiento, de manera accidental (sobreaprendizaje) o no. Esta memorización se caracteriza por la capacidad de reconstruir, al menos parcialmente, los datos de entrenamiento por un ataque (como un ataque de inferencia de pertenencia) o por su uso normal (como en el caso de la regurgitación para las IA generativas).
** El responsable del tratamiento de datos es la persona jurídica (empresa, municipio, etc.) o la persona física que determina los fines y medios del tratamiento, es decir, el objetivo y la forma de realizarlo. En la práctica, y por lo general, es la persona jurídica representada por su representante legal.
No hay comentarios:
Publicar un comentario