viernes, 1 de agosto de 2025

PROYECTOS EUROPEOS EN SERVICIOS HABILITADOS POR IA EN SALUD DIGITAL EN EL CONTINUO DEL BORDE DE LA NUBE ("EDGE-TO-CLOUD CONTINUUM") . HADEA.

   Por: Carlos A. FERREYROS SOTO

Doctor en Derecho

Universidad de Montpellier I Francia.

cferreyros@ferreyros-ferreyros.com

Resumen

HaDEA (European Health and Digital Executive Agency) gestiona actualmente más de 900 proyectos relacionados con inteligencia artificial (IA), muchos de los cuales abordan el desarrollo y aplicación de servicios habilitados por IA en el continuo del borde a la nube ("edge-to-cloud continuum") en áreas clave como salud, fabricación, observación de la Tierra y sistemas cognitivos distribuidos.

Los principales líneas y ejemplos de proyectos del "edge-to-cloud continuum" gestionados por HaDEA son:


·   Cognitive Computing Continuum: Proyectos como ENACT desarrollan arquitecturas para gestionar recursos de manera óptima y escalar aplicaciones “hiper-distribuidas”. Utilizan redes neuronales gráficas y algoritmos de aprendizaje profundo para indicar configuraciones de despliegue óptimos, mejorando las competencias digitales europeas y la calidad de los servicios TI.

·  Cognitive Fog Computing: COGNIFOG ofrece un marco de "cognitive fog" para monitorear y analizar flujos de datos a lo largo del IoT-edge-cloud continuum, usando servicios de análisis basados en IA cerca del origen de los datos (en el borde o edge), lo que permite respuestas en tiempo real y mejora la eficiencia energética y la escalabilidad de las aplicaciones inteligentes.

·   Federated Learning y privacidad: El proyecto FLUTE impulsa métodos de aprendizaje federado y mecanismos de compartición de datos orientados a la privacidad en entornos descentralizados, permitiendo el entrenamiento de modelos de IA sin concentrar datos sensibles en un solo centro, relevante para casos médicos y de diagnóstico de alto valor añadido.

En síntesis, los proyectos gestionados por HaDEA orientados al continuum edge-cloud exploran soluciones de IA distribuidas que mejoran la toma de decisiones, la eficiencia operativa, la privacidad y la capacidad de respuesta en múltiples sectores, siguiendo una visión europea de infraestructura digital segura, interoperable y ética.

A fin de acceder a normas similares y estándares europeos, las empresas, organizaciones públicas y privados interesados en asesorías, consultorías, capacitaciones, estudios, evaluaciones, auditorías sobre el tema, sírvanse comunicar al correo electrónico:cferreyros@ferreyros-ferreyros.com

____________________________________________

ICE2025: conozca los proyectos gestionados por la Agencia Ejecutiva Europea de Salud y Digital (HaDEA) que trabajan en servicios habilitados por IA en el continuo del borde de la nube.



La Conferencia Internacional de Ingeniería, Tecnología e Innovación 2025 (ICE2025) fue un evento inspirador, donde los participantes presentaron y debatieron las últimas tendencias en transformación digital. Durante la conferencia, se organizaron 14 sesiones temáticas especiales, donde se exploraron las sinergias entre los proyectos en curso y se debatieron los retos futuros. Una de las sesiones especiales (SS14 - Sesión Especial: Continuidad de la Computación Cognitiva) fue presidida por el proyecto ENACT, gestionado por HaDEA, con la participación de otros seis proyectos financiados por la UE, también gestionados por HaDEA, seleccionados en la convocatoria Horizonte Europa 2023 sobre Continuidad de la Computación Cognitiva: Inteligencia y automatización para un procesamiento de datos más eficiente. 

Si bien todos estos proyectos son complementarios en sus objetivos de investigación, es crucial analizar periódicamente las líneas de investigación que se solapan y diferencian, lo que puede dar forma a las perspectivas tecnológicas futuras. Con este fin, tras más de 18 meses de implementación, nuestros proyectos durante la sesión especial han concluido lo siguiente:

  • Definir estrategias desde el principio para conceptualizar y gestionar recursos dentro del Continuo de la Computación Cognitiva es clave para ofrecer soluciones exitosas a los usuarios finales. Por ejemplo, considerar los recursos como colectivos autónomos específicos o enjambres dinámicos tiene diferentes implicaciones en términos de tiempo de ejecución e implementación.
  • Ciertos casos de uso que pueden manejar datos sensibles, como la salud electrónica o la fabricación, imponen restricciones sobre dónde deben almacenarse e implementarse los datos y los componentes del servicio. Por ejemplo, las ubicaciones geográficas predefinidas plantearán diversos desafíos para la gestión dinámica de recursos.  
  • Uno de los principales desafíos para el desarrollo de estas tecnologías es la falta de conjuntos de datos reales y de acceso abierto que puedan usarse para entrenar modelos de orquestación basados en IA.
  • Para la futura interoperabilidad y sostenibilidad de los servicios, es crucial utilizar marcos de modelado estándar y de código abierto como TOSCA (Especificación de Topología y Orquestación para Aplicaciones en la Nube). Sin esta representación estándar, la gestión de recursos en el borde de la nube en diferentes casos de uso se vuelve muy compleja. Además, los proyectos de la UE pueden desempeñar un papel crucial al participar en el trabajo de los comités técnicos, dando forma a los futuros esfuerzos de estandarización.
  • La incorporación de soporte para diversos espacios de datos de código abierto e infraestructuras de datos federadas en el dominio del servicio es clave para el éxito futuro.

Los proyectos:

  • COGNETS tiene como objetivo revolucionar la gestión de infraestructura inteligente mediante la introducción de un marco de middleware distribuido escalable e interoperable para la computación autónoma de IoT en la nube, sostenible durante y después del proyecto.
  • EMPYREAN tiene como objetivo establecer asociaciones, un paradigma de computación hiperdistribuida, aprovechando dispositivos IoT colaborativos y heterogéneos y recursos informáticos y de almacenamiento federados que pueden pertenecer a diferentes usuarios.
  • ENACT está desarrollando un Continuum de Computación Cognitiva que puede abordar las necesidades de gestión óptima de recursos y escalamiento dinámico. Al aprovechar el poder de las Redes Neuronales Graficas impulsadas por IA y los agentes de Aprendizaje Profundo por Refuerzo, el proyecto sugerirá configuraciones óptimas de implementación para aplicaciones hiperdistribuidas. Los resultados de estas actividades de investigación y desarrollo mejorarán las competencias de las empresas europeas y modernizarán los servicios de TI.
  • HYPERAI trabaja con entidades informáticas virtuales inteligentes (nodos) que provienen de una variedad de infraestructuras que abarcan las tres capas del llamado continuo informático: la nube, el borde y la IoT.
  • INTEND se propone ofrecer once herramientas de software innovadoras que se integren en un conjunto de herramientas INTEND. El enfoque y las herramientas se probarán y validarán en cinco dominios verticales para lograr la novedosa operación de datos basada en intención para canales de transmisión de video, plataformas de datos de máquinas, infraestructura de datos 5G, espacio de datos urbanos y aplicaciones de IA robótica.
  • MYRTUS tiene como objetivo desbloquear la nueva dimensión viva de los sistemas ciberfísicos (CPS), adoptando los principios de la Iniciativa TransContinuum e integrando plataformas de computación en la nube, en la niebla y en el borde.
  • SWARMCHESTRATE trabaja en la autoorganización de los llamados enjambres de unidades interdependientes en un espacio de orquestación dinámico. Los enjambres serán gestionados por agentes de orquestación descentralizados con soluciones confiables basadas en blockchain, algoritmos criptográficos de vanguardia y análisis de datos que preservan la privacidad.

 Fondo

La computación en la nube es uno de los componentes clave para dar forma al futuro digital de Europa. Se prevé que la Comisión Europea proponga la Ley de Desarrollo de la Nube y la IA en 2025, con el potencial de triplicar la capacidad de los centros de datos de la UE, para cerrar la brecha de capacidad en comparación con EE. UU. y China. Al mismo tiempo, también se pronostica que, si bien el 20 % de la computación futura se realizará en centros de datos, es decir, en el entorno de la nube, alrededor del 80 % de la computación se ejecutará en dispositivos inteligentes más cercanos al usuario, es decir, computación de borde. Esta computación de borde en la nube también implicará el entrenamiento, el ajuste y la ejecución de varios modelos de IA en un entorno heterogéneo y dinámico. Esto requerirá soluciones tecnológicas, donde el sistema sea capaz de percibir su entorno, optimizarlo en tiempo real y aprender a adaptar dinámicamente sus cargas computacionales, es decir, lo que se conoce como Cognitive Computing Continuum.

Horizonte Europa es el programa de investigación e innovación de la UE para el período 2021-2027.

Detalles

Fecha de publicación
18 de julio de 2025
Autor
Agencia Ejecutiva Europea de Salud y Digital
Sector del programa
  • Digital
Programa
  • Clúster 4 de Horizonte Europa: Digital

jueves, 31 de julio de 2025

SOBRE LA FIABILIDAD DE LOS SISTEMAS DE INTELIGENCIA ARTIFICIAL.

  Por: Carlos A. FERREYROS SOTO

Doctor en Derecho

Universidad de Montpellier I Francia.

cferreyros@ferreyros-ferreyros.com

Resumen

El documento critica un común supuesto en el campo de la inteligencia artificial: un alto rendimiento en el laboratorio no implica automáticamente la fiabilidad del sistema. Si bien los modelos de aprendizaje profundo han mostrado mejoras en la gestión de ciertos desafíos controlados (como la robustez ante distribuciones de datos específicas, como las de ObjectNet), el problema subyacente de fiabilidad persiste. Cuando las redes neuronales artificiales (RNA) se encuentran con entradas desconocidas o contradictorias, a menudo fallan, al proporcionar predicciones de alta certeza, incluso en escenarios en los que idealmente deberían reconocer anomalías o incertidumbre. Esto pone de relieve un problema fundamental: los sistemas de IA actuales suelen carecer de autoconciencia respecto a los límites de su propia competencia.

Para que las herramientas de IA sean verdaderamente fiables, deben ir más allá de simplemente procesar entradas y obtener resultados. El documento establece un requisito claro: una IA fiable debe ser capaz de cumplir con éxito su tarea o reconocer explícitamente fallos. Esto implica internalizar la comprensión de que los datos de entrada observables (como imágenes u otra información de sensores) son solo una manifestación superficial de procesos subyacentes más profundos. Por lo tanto, un sistema fiable debe estar equipado no solo para analizar e interpretar los datos de entrada, sino también para formular hipótesis sobre los mecanismos subyacentes. Si una entrada no se ajusta a los patrones esperados o contiene incongruencias, el sistema debe generar una excepción de forma robusta, alertando a los usuarios o cerrándose en lugar de ofrecer resultados potencialmente engañosos.

En resumen, la confiabilidad en IA requiere más que predicciones de alta precisión sobre tareas familiares. La IA no sólo debería generar resultados, sino también tener mecanismos para reconocer y señalar cuando encuentra anomalías o situaciones fuera de su competencia. También debería no solamente incorporar el conocimiento previo del diseñador sino ampliar la innovación y la capacidad del sistema para aprender o encontrar nuevos patrones de datos puesto que la verdadera confiabilidad proviene de sistemas que formulan hipótesis sobre los procesos generadores detrás de los datos, no solo de sistemas que se destacan en las asignaciones de entrada y salida. Este artículo propone un cambio de enfoque desde las métricas de evaluación tradicionales hacia una comprensión más profunda a nivel de proceso y un manejo de excepciones en la inteligencia artificial.

El presente artículo publicado en ACM Digital Library, fue traducido del inglés al castellano por el suscrito con la ayuda del aplicativo Google Translator. Se adjunta copia en su versión original al final y el enlace al texto en Internet: https://dl.acm.org/doi/10.1145/3688671.3688786

A fin de acceder a normas similares y estándares europeos, las empresas, organizaciones públicas y privados interesados en asesorías, consultorías, capacitaciones, estudios, evaluaciones, auditorías sobre el tema, sírvanse comunicar al correo electrónico:cferreyros@ferreyros-ferreyros.com

____________________________________________



SOBRE LA FIABILIDAD DE LOS SISTEMAS DE INTELIGENCIA ARTIFICIAL

Autor
Stasinos Konstantopoulos

Abstract

Este artículo propone un conjunto de requisitos técnicos concretos para métodos de inteligencia artificial fiables. Si bien estos requisitos no abarcan las dimensiones sociales, éticas ni regulatorias, sí abarcan los aspectos técnicos del ciclo de vida completo de un sistema de IA, desde su diseño y monitorización y control operativo hasta su comportamiento en caso de fallo. El artículo concluye con un esquema para un plan de investigación ambicioso pero realista que puede impulsar el estado del arte hacia sistemas de IA fiables.

1 Introducción

A medida que las tecnologías de inteligencia artificial (IA), y en particular el aprendizaje automático (AA), alcanzan la madurez necesaria para su aplicación generalizada, el debate sobre las salvaguardias y políticas necesarias cobra cada vez mayor impulso. Este debate suele combinar múltiples dimensiones bajo el término de IA fiable: la evaluación técnica de las tecnologías de IA en cuanto a su idoneidad para el propósito; las políticas que se les pide a los operadores humanos que implementen y la responsabilidad de estos operadores respecto a la fidelidad y acierto con que las implementan; y los puntos de acceso que ofrece el sistema a sus operadores humanos para supervisar y controlar eficazmente un sistema implementado.

En este artículo, analizaremos el concepto de fiabilidad. Si bien la fiabilidad por sí sola no abarca completamente lo que suele entenderse como fiabilidad de la IA, sí abarca todas sus dimensiones:

• La fiabilidad no se cubre completamente con la precisión de la medición y las métricas de rendimiento relevantes. Para ser fiable, un sistema debe cubrir requisitos no funcionales, como la degradación gradual (en lugar del colapso) en condiciones de implementación adversas, la mantenibilidad y la robustez a lo largo del tiempo.

El diseño para la testabilidad (DFT), principalmente en microelectrónica, consiste en añadir características ya en fase de diseño que no satisfacen los requisitos funcionales, pero que facilitan la prueba del sistema y el diagnóstico de fallos.

Capacitar a los operadores humanos para la monitorización y el control mediante los medios que les ofrece el sistema para diagnosticar fallos y reaccionar ante ellos.

El objetivo de este documento de posición es interpretar estos objetivos generales como requisitos técnicos concretos y argumentar que los requisitos propuestos son ambiciosos pero realistas.

2 Monitoreo y Control

Aunque el término inteligencia artificial abarca una amplia variedad de algoritmos, lo que suele preocupar en el contexto de la confiabilidad son las redes neuronales artificiales (RNA) conexionistas o de inspiración neurológica. Estos sistemas codifican el conocimiento en forma de una red compleja de nodos de procesamiento simples, de modo que las decisiones que toma el sistema dependen de cómo interactúan los nodos y no del procesamiento que se realiza en cada uno de ellos.

En el estado actual de la técnica, las RNA con millones de nodos pueden construirse con hardware informático básico, mientras que las instancias principales de RNA superan los 100 mil millones de nodos. Dado que la lógica detrás de cada decisión se distribuye por toda la red, a estas escalas es imposible monitorear o controlar las RNA mediante ingeniería de software convencional. Es decir, es completamente imposible para un ingeniero seguir los pasos del procesamiento desde las entradas hasta las salidas y, más aún, controlar las salidas editando directamente el programa, los parámetros (pesos) de las conexiones.

Como resultado, el monitoreo se limita a medir errores en sus salidas. El control también se limita a decidir sobre la arquitectura de red, establecer la tasa de aprendizaje y otros hiperparámetros, y aumentar o mejorar el conjunto de datos de entrenamiento. Estas son decisiones importantes que pueden afectar drásticamente el rendimiento, y las revisaremos más adelante en el contexto de los grados de libertad ofrecidos a los desarrolladores de sistemas. Sin embargo, en el contexto actual de la operación de una implementación, no se puede esperar de forma realista que el sistema pueda rediseñarse y reentrenarse para solucionar fallos menores. La única acción que el operador de campo puede realizar es ignorar o apagar el sistema y devolverlo para su rediseño y reentrenamiento, posiblemente adjuntando los puntos de datos que demuestran el fallo.

Desde el punto de vista de la fiabilidad, esto genera dos problemas: provoca la indisponibilidad del sistema incluso en fallos menores que en otros sistemas técnicos normalmente se abordarían de inmediato; y debilita el canal de retroalimentación de soluciones alternativas e improvisaciones, que es invaluable para la mejora iterativa.

Para dar un ejemplo de un sistema de aprendizaje automático interpretable y editable, considere GAM Changer [28]. GAM Changer aplica Modelos Aditivos Generalizados (GAM) al ámbito médico y permite a los médicos analizar, validar y editar intuitivamente los modelos para que sus comportamientos se ajusten a sus conocimientos y valores. Naturalmente, esto se facilita principalmente porque los GAM son la combinación lineal de los valores de entrada, un modelo sencillo e intuitivo. Aplicar parches manualmente a las implementaciones de ANN sería mucho más complicado.

REQUISITO: Para aprovechar al máximo el círculo virtuoso de mejora iterativa a través del uso, las implementaciones activas deben poder contribuir no solo con datos de entrenamiento sino también con improvisaciones y soluciones alternativas desarrolladas localmente, que luego el proveedor generaliza en mejoras para todas las implementaciones.

3 El rendimiento en el laboratorio no es sinónimo de fiabilidad

Las RNA clásicas cuentan con tres capas de nodos completamente conectados, pero la reciente revolución del aprendizaje profundo ha expandido los nodos a lo largo de una arquitectura más profunda, con más de las tres capas teóricamente requeridas. Se ha descubierto que las diferentes arquitecturas de aprendizaje profundo presentan sus respectivas ventajas e inconvenientes para diferentes aplicaciones, pero en todos los casos, una RNA profunda tendrá un número considerablemente menor de posibles configuraciones de conexión que una RNA completamente conectada y, por lo tanto, se pueden entrenar redes mucho más grandes de forma realista. Este es un desarrollo muy prometedor, no solo porque ha permitido escalar las redes profundas, sino también porque las capas son, en realidad, niveles de representaciones cada vez más abstractas de los datos de entrada [4, 5]. Esto ya reduce la opacidad de las RNA y ofrece oportunidades para la inspección y manipulación humana.

Los recientes avances en visión artificial son un excelente ejemplo de cómo la arquitectura puede tener profundos efectos en el comportamiento del sistema. En visión artificial, la arquitectura lineal y sencilla de Redes Neuronales Convolucionales (CNN) dominó originalmente el estado del arte [16, 26], pero fue reemplazada por arquitecturas más complejas de Redes Neuronales Residuales (ResNet), que incluyen conexiones que implementan capas recurrentes y omisión de capas [11, 17, 27]. En un desarrollo paralelo, la arquitectura YOLO replantea el concepto de convolución para superar la incapacidad de las CNN originales para considerar adecuadamente el contexto [22], y sus últimas ediciones también logran resultados de vanguardia.

Lo importante de la cronología anterior es que, si bien las redes aumentan de tamaño con el tiempo, no fueron solo las redes más grandes las que lograron avances significativos en rendimiento, sino también una comprensión cada vez mejor del comportamiento de las diferentes arquitecturas y la acumulación de experiencia sobre cómo diseñar arquitecturas que enfaticen los beneficios relevantes para la aplicación en cuestión. Esto corrobora la importancia del primer requisito mencionado, aunque en este contexto las mejoras fueron resultado de la experiencia adquirida mediante la experimentación en laboratorio, más que de las implementaciones. Sin embargo, el argumento es, una vez más, que la mejora no se logró mediante la exposición de un aprendiz de caja negra a datos cada vez más complejos y voluminosos, sino mediante la ingeniería directa de su estructura.

A pesar de estos avances, las RNA siguen siendo relativamente frágiles, lo que se manifiesta tanto en el conjunto de datos ObjectNet como en los ataques adversarios. ObjectNet es una colección de imágenes de objetos domésticos comunes fotografiados desde ángulos extraños o colocados de formas extrañas, como boca abajo. Las pruebas de vanguardia en ObjectNet han arrojado precisiones que son la mitad de las reportadas en los conjuntos de datos habituales [2], lo que demuestra cómo todos los sistemas de visión artificial no logran capturar las propiedades esenciales de estos objetos y se basan en pistas visuales superficiales.

Desarrollos posteriores, como Visual Transformers (ViT), han aumentado considerablemente su robustez en ObjectNet [8], pero la afirmación anterior sobre su falta de robustez se mantiene, como lo demuestran los ataques adversarios desarrollados posteriormente a su introducción [29]. Los ataques adversarios también explotan el hecho de que las RNA no analizan ni verifican la validez de sus decisiones. Cada capa es una función matemática que asigna matrices de valores a otros valores, y la red completa asigna una matriz de valores RGB a un valor de decisión sin conectar estas salidas a ningún sistema más amplio de conocimiento sobre el mundo y los objetos que lo componen. Los ataques adversarios perturban las imágenes al desplazar ligeramente los valores RGB hacia valores que generan características (salidas de la capa intermedia) que impulsan la decisión hacia un objeto diferente. Donde un humano reconocería inmediatamente el objeto correcto, quizás con colores un poco extraños, la RNA tomará decisiones absurdas con confianza. Se ha demostrado que los ataques adversarios reducen la precisión de las redes de última generación (tanto las basadas en CNN como en ResNet) a la mitad o incluso menos, y comprender y mitigar completamente este fenómeno es una cuestión de investigación abierta [1]. Finalmente, los ataques adversarios no se limitan a la visión artificial, sino que son omnipresentes en todo el espectro de aplicaciones de aprendizaje profundo [6, 9, 10, 14]. Se espera que los ingenieros de aprendizaje profundo eventualmente ideen una forma de contrarrestar los ataques adversarios, tal como finalmente han diseñado una arquitectura robusta a los ángulos y posiciones de ObjectNet. Sin embargo, la falta de confiabilidad subyacente persiste, a la espera de que se descubran más debilidades: cuando las RNA fallan, lo hacen con confianza en lugar de reconocer una entrada como una anomalía.

REQUISITO: Para ser confiables, las herramientas de inteligencia artificial deben tener éxito o reconocer su fracaso, internalizando la comprensión de que la forma (visual u otra) que presentan los datos de entrada es una representación superficial de los procesos y mecanismos subyacentes. Una inteligencia artificial confiable no debe simplemente mapear las entradas con las salidas, sino que debe usar las entradas para formular hipótesis sobre los procesos y mecanismos que las generaron, de modo que pueda analizar correctamente lo observado o generar una excepción al detectar incongruencias o anomalías.

4 Diseño para la Testabilidad y Editabilidad

Por razones pragmáticas [20] y regulatorias [21], la implementación de herramientas de IA opacas está encontrando resistencia, especialmente en aplicaciones con alto riesgo. Esto ha despertado el interés de la comunidad investigadora en la IA explicable (xAI). Resumiendo estudios recientes [12, 13, 19], la xAI se agrupa en dos enfoques principales:

• Las explicaciones locales muestran la parte o partes de la entrada y sus atributos que más contribuyeron a tomar una decisión específica. Técnicas como el enmascaramiento permiten aplicar explicaciones locales a modelos de caja negra.

• Las explicaciones globales se generan típicamente a partir de modelos sustitutos. Estos son modelos con un formalismo intuitivo y de fácil interpretación humana que se entrenan utilizando los resultados del modelo completo.

Las explicaciones locales pueden ser de gran ayuda en el análisis de errores, pero no son capaces de proporcionar tanto el control como la información sobre cómo el modelo percibe el mundo, tal como se plantea en los requisitos anteriores. En cuanto a los modelos sustitutos, como argumenta convincentemente Rudin [24], a menudo son engañosos. A lo que se puede añadir que tampoco es posible transferir parches del sustituto al modelo original.

Sin embargo, existen varios métodos en la literatura reciente que buscan explicar el modelo original. Las RNA construyen un espacio latente donde manipulan vectores de valores. Normalmente, los algoritmos de aprendizaje aplican un sesgo hacia las dimensiones con la menor correlación posible, de modo que todos los vectores de valores sean posibles y ninguna parte del espacio quede sin utilizar. Este sesgo basado en datos proporciona eficiencia, pero crea un espacio donde las dimensiones carecen de significado que pueda comunicarse o explicarse. El blanqueamiento de conceptos [7] es un sesgo de aprendizaje diferente que fuerza las dimensiones del espacio latente a alinearse con los conceptos de interés pre configurados. Un enfoque alternativo aprovecha la retroalimentación descendente para tener en cuenta un contexto explícito. Mientras que ResNet y otras RNA recurrentes similares retroalimentan las salidas de las capas intermedias para proporcionar contexto, la retroalimentación de visión media [18] permite retroalimentar la retroalimentación que no proviene necesariamente de la misma red. Si bien esta posibilidad aún no se ha explorado por completo, en principio permite retroalimentar un contexto construido a partir de conocimiento simbólico categórico.

Estos son nuevos enfoques para un viejo problema en IA: la interconexión de las conceptualizaciones basadas en datos (formas de organizar objetos) que surgen del aprendizaje automático con representaciones de conocimiento simbólico comprensibles y elaboradas por humanos. Contar con una base conceptual compartida, o al menos compatible, es una vía prometedora para explicar cómo la IA segmenta el mundo a medida que procesa las entradas para tomar una decisión. Por ello, el reciente impulso hacia la xAI ha convertido a los enfoques neurosimbólicos en una dirección destacada en este campo [15].

Si bien la IA neurosimbólica puede brindarnos la transparencia y la capacidad de edición que necesitamos, cabe destacar que muchos enfoques imponen a la IA nuestra conceptualización previa, en lugar de que la IA y el ingeniero establezcan una nueva conceptualización compartida. Esto contradice el objetivo de la DFT que planteamos en la Introducción: forzar una conceptualización previa redefine y restringe las características funcionales para facilitar la testabilidad, en lugar de añadir características no funcionales. Esto puede llevar a perder la oportunidad de descubrir en los datos atributos y patrones previamente inadvertidos.

REQUISITO: Los requisitos de fiabilidad mencionados anteriormente deben satisfacerse mejorando los métodos de IA y añadiendo características no funcionales que faciliten la monitorización y el control.

5 Conclusión

Los requisitos propuestos pueden ser ambiciosos, pero los argumentos presentados para respaldarlos indican que son necesarios y alcanzables. Necesarios porque, si bien la fiabilidad no es el único aspecto de la confianza que los sistemas de IA necesitan obtener, es el más difícil de lograr en el ámbito técnico. También es uno de los aspectos, especialmente a través de la monitorización y el control, que permite que los debates no técnicos sobre políticas y rendición de cuentas se basen en la viabilidad técnica.

En cuanto a su grado de realismo, el estado del arte reciente presentado aquí es prometedor. Para empezar, Maynord et al. [18] mencionan la explicabilidad como un posible efecto secundario positivo de la retroalimentación de visión media, aunque sin proporcionar detalles técnicos sobre lo que se prevé. Sin embargo, se puede observar que la retroalimentación de visión media puede integrarse con conceptos del blanqueamiento de conceptos para tener una forma de inspeccionar lo que se representa en las capas intermedias de la red, al menos a nivel de ejemplos característicos. Lo que la retroalimentación de visión media proporciona al blanqueamiento de conceptos es una forma de operar sin la necesidad de supervisar el sistema con muestras características de cada concepto. El blanqueamiento de conceptos, tal como lo formularon originalmente Chen et Al. [7], requiere una supervisión detallada que no escala bien y, lo más importante, restringe los grados de libertad de la red. Por otro lado, en la retroalimentación de visión intermedia, la red tiene la libertad de buscar nuevas formas de segmentar el mundo a medida que estas surgen de los datos, pero no tiene forma de comunicar estos nuevos conceptos ni de construir una conceptualización compartida entre el operador humano y ella misma. Una vía prometedora podría ser que la red organice el mundo, presente esta organización seleccionando o sintetizando muestras de cada concepto y proporcione al operador una forma de rechazar conceptos. El operador tiene en mente una tarea que el sistema intenta lograr y marca los conceptos que deberían usarse como características para las capas posteriores porque están sesgados, son coincidentes o no están justificados. Definir formalmente e implementar realmente lo que significa rechazar un concepto puede ser difícil de generalizar en todas las arquitecturas de red, pero la investigación futura puede implementar esto en arquitecturas individuales y, posteriormente, buscar puntos en común que puedan descartarse.

Esta línea de pensamiento introduce naturalmente en la discusión el concepto de modularización. Dado que los únicos límites explícitos entre los nodos de la red son las capas, cualquier conceptualización como la descrita anteriormente deberá basarse en grupos de vectores de características propagados entre capas. En el plan de investigación descrito anteriormente, no hicimos referencia a cómo las capas posteriores utilizan los conceptos intermedios, y el operador tuvo que excluir conceptos por su potencial uso contrario a su intuición sobre la tarea.

Sería una ventaja obvia poder comunicar cómo se utilizan realmente los conceptos. Sin embargo, cabe destacar que en aplicaciones no triviales esperamos un gran número de conceptos que contribuyan a la siguiente capa sin que necesariamente algunos pesos destaquen de forma prominente. Para poder comunicar de forma significativa cómo interactúan los conceptos de diferentes capas, necesitamos modularizar la red entrenada en fragmentos de fácil comprensión para que el operador pueda inspeccionarlos uno por uno sin tener que retener en la memoria de trabajo las dependencias completas de una capa a la siguiente. Naturalmente, como se argumentó anteriormente, esta modularización idealmente sería posterior al entrenamiento en lugar de impuesta con anterioridad.

A pesar de un avance inminente en los métodos de agrupamiento, esto no será posible en el caso general. Un compromiso razonable puede ser imponer una modularización previa derrotable. Para hacer esto más concreto, supongamos una conceptualización previa, dividida en capas (de abstracción y de la red) e imponiendo exclusividad mutua u otros axiomas entre los conceptos en cada capa. La red tendría que refinar las definiciones de concepto o decidir que una reorganización de los conceptos de una capa mejoraría el resultado general de una manera análoga a cómo la retroalimentación de visión media usa y da forma simultáneamente al contexto representado en capas intermedias. La IA neurosimbólica [25] y la diferenciación automática [3] pueden hacer posible definir y entrenar arquitecturas más complejas y dinámicas, donde los módulos bien definidos interactúan de maneras que están predefinidas pero pueden cambiar ante la evidencia empírica. Estos enfoques asumen una representación lógica (en IA neurosimbólica) o programática (en diferenciación automática) como la columna vertebral estructural de la red; Ambos enfoques proponen métodos para retro propagar las pérdidas a través de toda la red, aprovechando la supervisión habitual de extremo a extremo y evitando la supervisión detallada.

Como la estructura de la red se puede inspeccionar y editar, el operador puede, por ejemplo, eliminar la dependencia entre dos conceptos de capas diferentes en lugar de prohibir completamente el concepto en la capa anterior. Para dar un ejemplo concreto, considere el infame ejemplo de clasificar perros frente a lobos basándose en el fondo verde o nevado en lugar del animal en sí [23]. Prohibir todos los conceptos que caracterizan los fondos no requiere comprender cómo interactúan los conceptos, pero haría que la red fuera específica de la tarea y no susceptible de refinamiento para otras tareas. Prohibir las conexiones entre los conceptos de fondo y los conceptos de animales sería una mejor manera de comunicarse con una red, ya que le otorga un conocimiento del mundo más preciso y, en general, más útil.

Proponemos el escenario del perro frente al lobo, y muchas clasificaciones erróneas famosas similares de la literatura y la tradición sobre visión profunda, como un buen caso de prueba para la investigación en IA neurosimbólica. En concreto, proponemos que el caso de prueba sea que un operador humano sea capaz de corregir una clasificación errónea editando la parte lógica de la red y que un operador experto pueda ver qué editar sin efectos secundarios imprevisibles y catastróficos, de la misma forma que un programador experto puede depurar y corregir un programa con un sufrimiento mínimo de efectos secundarios a larga distancia.

Agradecimientos

Esta investigación fue (co)financiada por la Unión Europea con el número de autorización general 101135782 (proyecto MANOLO). Sin embargo, las opiniones y puntos de vista expresados son exclusivamente de los autores y no reflejan necesariamente los de la Unión Europea ni del CNECT. Ni la Unión Europea ni el CNECT se responsabilizan de ellas.

Referencias

Anurag Arnab, Ondrej Miksik, and Philip H.S. Torr. 2018. On the Robustness of Semantic Segmentation Models to Adversarial Attacks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018).

Go to Citation

Crossref

Google Scholar

[2]

Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, and Boris Katz. 2019. ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models. In Advances in Neural Information Processing Systems 32: NeurIPS 2019.

Go to Citation

Google Scholar

[3]

Atılım Güne  s Baydin, Barak A. Pearlmutter, Alexey Andreyevich Radul, and Jeffrey Mark Siskind. 2018. Automatic Differentiation in Machine Learning: A Survey. Journal of Machine Learning Research 18 (April 2018).

Go to Citation

Google Scholar

[4]

Yoshua Bengio and Olivier Delalleau. 2011. On the Expressive Power of Deep Architectures. In Proc. 22nd International Conference on Algorithmic Learning Theory (ALT 2011), Espoo, Finland, 5-7 October 2011(LNAI, Vol. 6925). Springer.

Go to Citation

Google Scholar

[5]

Yoshua Bengio and Yann LeCun. 2007. Scaling learning algorithms towards AI. In Large-Scale Kernel Machines. The MIT Press.

Go to Citation

Crossref

Google Scholar

[6]

Eoin Brophy, Zhengwei Wang, Qi She, and Tomás Ward. 2023. Generative Adversarial Networks in Time Series: A Systematic Literature Review. Comput. Surveys 55, 10 (Feb. 2023).

Go to Citation

Digital Library

Google Scholar

[7]

Zhi Chen, Yijie Bei, and Cynthia Rudin. 2020. Concept whitening for interpretable image recognition. Nature Machine Intelligence 2 (Dec. 2020).

Crossref

Google Scholar

[8]

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In Proc. ICLR 2021, Vienna, Austria. arXiv:https://arXiv.org/abs/2010.11929v2 [cs.CV].

Go to Citation

Google Scholar

[9]

Narmin Ghaffari Laleh, Daniel Truhn, Gregory Patrick Veldhuizen, Tianyu Han, Marko van Treeck, Roman D. Buelow, Rupert Langer, Bastian Dislich, Peter Boor, Volkmar Schulz, and Jakob Nikolas Kather. 2022. Adversarial attacks and adversarial robustness in computational pathology. Nature Comm. 13 (2022).

Go to Citation

Google Scholar

[10]

Ke He, Dan Dongseong Kim, and Muhammad Rizwan Asghar. 2023. Adversarial Machine Learning for Network Intrusion Detection Systems: A Comprehensive Survey. IEEE Communications Surveys and Tutorials 25, 1 (2023).

Go to Citation

Digital Library

Google Scholar

[11]

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Conference on Computer Vision and Pattern Recognition (CVPR 2016), Las Vegas, NV, USA.

Go to Citation

Crossref

Google Scholar

[12]

Andreas Holzinger, Anna Saranti, Christoph Molnar, Przemyslaw Biecek, and Wojciech Samek. 2022. Explainable AI Methods - A Brief Overview. In Revised and Extended Papers of the International Workshop Beyond Explainable AI (xxAI), held at ICML 2020, Vienna, Austria, 18 July 2020(LNAI, Vol. 13200). Springer.

Go to Citation

Digital Library

Google Scholar

[13]

Mir Riyanul Islam, Mobyen Uddin Ahmed, Shaibal Barua, and Shahina Begum. 2022. A Systematic Review of Explainable Artificial Intelligence in Terms of Different Application Domains and Tasks. Applied Sciences 12, 3 (Jan. 2022).

Go to Citation

Crossref

Google Scholar

[14]

Shuai Jia, Chao Ma, Taiping Yao, Bangjie Yin, Shouhong Ding, and Xiaokang Yang. 2022. Exploring Frequency Adversarial Attacks for Face Forgery Detection. In Proceedings IEEE/CVF CVPR 2022.

Go to Citation

Crossref

Google Scholar

[15]

Henry Kautz. 2022. The Third AI Summer: AAAI Robert S. Engelmore Memorial Lecture. AI Magazine 43, 1 (2022).

Go to Citation

Digital Library

Google Scholar

[16]

Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems.

Go to Citation

Digital Library

Google Scholar

[17]

Chenxi Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. 2018. Progressive neural architecture search. In Proceedings of ECCV 2018.

Go to Citation

Digital Library

Google Scholar

[18]

Michael Maynord, Eadom Dessalene, Cornelia Fernmüller, and Yiannis Aloimonos. 2023. Mid-Vision Feedback. In Accpeted to the Eleventh International Conference on Learning Representations (ICLR 2023), Kigali, Rwanda, May 2023.

Google Scholar

[19]

Dang Minh, H. Xiang Wang, Y. Fen Li, and Tan N. Nguyen. 2021. Explainable artificial intelligence: A comprehensive review. Artificial Intelligence Review 55 (Nov. 2021).

Go to Citation

Digital Library

Google Scholar

[20]

Judea Pearl. 2019. The Limitations of Opaque Learning Machines. In Possible Minds: Twenty-Five Ways of Looking at AI, John Brockman (Ed.). Penguin Press.

Go to Citation

Google Scholar

[21]

Pekka Ala-Pietilä et al.2019. Ethics Guidelines for Trustworthy AI. Technical Report. The High-Level Expert Group on AI (AI HLEG), set up by the European Commission. https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai

Go to Citation

Google Scholar

[22]

Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 2016. You Only Look Once: Unified, Real-Time Object Detection. In Proceedings of CVPR 2016https://arxiv.org/abs/1506.02640v5

Go to Citation

Crossref

Google Scholar

[23]

Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. Why Should I Trust You? Explaining the Predictions of Any Classifier. arXiv:https://arXiv.org/abs/1602.04938 (2016).

Go to Citation

Google Scholar

[24]

Cynthia Rudin. 2019. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence 1 (May 2019).

Go to Citation

Crossref

Google Scholar

[25]

Md Kamruzzaman Saker, Lu Zhou, Aaron Eberhart, and Pascal Hitzler. 2022. Neuro-Symbolic AI: Current Trends. AI Communications 34, 3 (2022).

Go to Citation

Google Scholar

[26]

Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv:https://arXiv.org/abs/1409.1556 (2014).

Go to Citation

Google Scholar

[27]

Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A. Alemi. 2017. Inception-v4, inception-resnet and the impact of residual connections on learning. In Proc. Thirty-First AAAI Conference on Artificial Intelligence.

Go to Citation

Crossref

Google Scholar

[28]

Zijie J. Wang, Alex Kale, Harsha Nori, Peter Stella, Mark E. Nunnally, Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, and Rich Caruana. 2022. Interpretability, Then What? Editing Machine Learning Models to Reflect Human Knowledge and Values. In Proceedings KDD 2022.

Go to Citation

Digital Library

Google Scholar

[29]

Zhipeng Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu Shanghai, Tom Goldstein, and Yu-Gang Jiang. 2022. Towards Transferable Adversarial Attacks on Vision Transformers. In Proceedings of the AAAI Conference on Artificial Intelligence.

__________________________

On the Reliability of Artificial Intelligence Systems

AuthorDescription: https://dl.acm.org/pb-assets/icons/DOs/default-profile-1543932446943.svgStasinos KonstantopoulosAuthors Info & Claims

SETN '24: Proceedings of the 13th Hellenic Conference on Artificial Intelligence

Article No.: 30, Pages 1 - 4

https://doi.org/10.1145/3688671.3688786

Published: 27 December 2024 Publication History

0citation568Downloads

 

PDFeReader

SETN '24: Proceedings of the 13th Hellenic Conference on Artificial Intelligence

On the Reliability of Artificial Intelligence Systems

Pages 1 - 4

·        Abstract

·        1 Introduction

·        2 Monitoring and Control

·        3 Performance in the Lab Is Not Reliability

·        4 Design for Testability and Editability

·        5 Conclusion

·        Acknowledgments

·        References

·        Index Terms

·        Recommendations

·        Comments

Abstract

This article proposes a set of concrete technical requirements for trustworthy artificial intelligence methods. Although these requirements do not cover the social, ethical, or regulatory dimensions, they do cover the technical aspects of the complete life-cycle of an AI system, from its design and operational monitoring and control to its behaviour when it fails. The article concludes with an outline for an ambitious but realistic research plan that can advance the state of the art in the direction of reliable AI systems.

1 Introduction

As artificial intelligence (AI) technologies, and most prominently among them machine learning (ML), are reaching the maturity needed for widespread application, the discussion on the safeguards and policies that need to be in place is picking up pace and volume. This discussion usually conflates multiple dimensions under the term of trustworthy AI: The technical evaluation of AI technologies with respect to their being fit for purpose; The policies that the human operators are asked to implement and the accountability of these operators with respect to how faithfully and aptly they implement them; And the access points offered by the system to its human operators to effectively monitor and control a deployed system.

In this article we will discuss the concept of reliability. Although reliability alone does not completely cover what is usually understood as AI trustworthiness, it does cut across all its dimensions:

Reliability is not completely covered by measuring accuracy and relevant performance metrics. To be reliable a system should cover non-functional requirements such as graceful degradation (rather than collapse) in adverse deployment conditions, maintainability, and robustness in time.

Design for testability (DFT), primarily in microelectronics, is the addition of features already at design time that do not satisfy functional requirements but make it easier to test the system and to diagnose failures.

Empowering human operators to monitor and control through means offered to them by the system to diagnose failures and to react to these failures.

The aim of this position paper is to interpret these general objectives as concrete technical requirements and to argue that the proposed requirements are ambitious but realistic.

2 Monitoring and Control

Although the term artificial intelligence subsumes a wide variety of algorithms, what is usually of concern in the context of trustworthiness are connectionist, or neuro-inspired, artificial neural networks (ANN). These systems encode knowledge in the form of a complex network of simple processing nodes, so that the decisions made by the system depend on how the nodes interact rather than on the processing that takes place on any one node.

At the current state of the art ANNs with millions of nodes can be built with commodity computer hardware, while major ANN instances exceed 100 billion nodes. As the logic behind each decision is distributed throughout the network, at these scales it is out of the question that ANNs can be monitored or controlled applying conventional software engineering. That is, it is completely impossible for an engineer to follow the processing steps from inputs to outputs and, even more so, to control the outputs by directly editing the ‘program’, the parameters (weights) of the connections.

As a result, monitoring is restricted to measuring errors in its outputs. Control is also limited to deciding on the network architecture, setting the learning rate and other hyper-parameters, and augmenting or improving the training dataset. These are important decisions that can dramatically affect performance, and we will revisit them below in the context of the degrees of freedom offered to system developers. But in the current context of operating a deployment, it cannot be realistically expected that the system can be re-designed and re-trained to address minor failures. The only action that the field operator can perform is to ignore or shut down the system and send it back for re-design and re-training, possibly attaching the datapoints that demonstrate the failure.

From a reliability point of view, this creates two problems: it causes system non-availability even in minor failures that in other technical systems would normally be addressed on the spot; and it enervates the feedback channel of work-arounds and improvisations that is invaluable for iterative improvement.

To give an example of an interpretable and editable machine learning system, consider GAM Changer [28]. GAM Changer applies Generalized Additive Models (GAM) to the medical domain and allows physicians to analyse, validate, and intuitively edit models so that model behaviours align with their knowledge and values. Naturally, this is mostly facilitated by the fact that GAMs are the linear combination of the input values, a straight-forward and intuitive model. Manually ‘patching’ ANN deployments would be a lot less straightforward, but no less desirable.

REQUIREMENT: In order to take full advantage of the virtuous circle of iteratively improving through usage, active deployments should be able to contribute not only training data but also locally developed improvisations and work-arounds, which are then generalized by the vendor into improvements for all deployments.

3 Performance in the Lab Is Not Reliability

Classical ANNs have three fully-connected layers of nodes, but the recent deep learning revolution spreads nodes along a deeper architecture with more than the three theoretically required layers. Different deep learning architectures have been found to have their respective benefits and drawbacks for different applications, but in all cases a deep ANN will have a dramatically smaller number of possible connection configurations than a fully connected ANN and thus much larger networks can be realistically trained. This is a very promising development, not only because it has allowed deep networks to scale but also because layers are, effectively, levels of increasingly abstract representations of the input data [45]. This already makes ANNs less opaque and affords opportunities for human inspection and manipulation.

Recent developments in computer vision serve as a prime example of how the architecture can have profound effects on the behaviour of the system. In machine vision, the straight-forward, linear Convolutional Neural Network (CNN) architecture originally dominated the state of the art [1626], but was superseded by more complex Residual Neural Network (ResNet) architectures that include connections that implement recurrent layers and layer skipping [111727]. In a parallel development, the YOLO architecture re-frames the idea of convolution in order to overcome the inability of the original CNNs to properly take into account context [22], with its latest editions also achieving state-of-the-art results.

What is important to note in the above timeline is that although networks do get larger over time, it was not larger networks alone that achieved major strides in performance but also an ever-improving understanding of how different architectures behave and the accumulation of expertise on how to best engineer architectures that emphasise benefits relevant to the application at hand. This corroborates to the importance of the first requirement above, although in this context the improvements were the result of the experience gained through lab experimentation rather than deployments. But the argument is again that improvement came not through exposing a black-box learner to increasingly complex and voluminous data but through directly engineering the structure of the learner.

Notwithstanding these advances, ANNs remain relatively flimsy, which is manifested both by the ObjectNet dataset and adversarial attacks. ObjectNet is a collection of images of common household objects photographed from strange angles or positioned in strange ways, such as upside down. Testing the state of the art on ObjectNet has given accuracies that are half of what is reported on the usual datasets [2], demonstrating how all machine vision systems fail to capture the essential properties of these objects and rely on superficial visual clues.

Subsequent developments such as Visual Transformers (ViT) have greatly increased their robustness on ObjectNet [8], but the statement above about their lack of robustness stands as demonstrated by adversarial attacks developed subsequently to their introduction [29]. Adversarial attacks also exploit the fact that ANNs do not analyse or sanity-check their decisions. Each layer is a mathematical function that maps arrays of values to other values, and the complete network maps an array of RGB values to a decision value without connecting these outputs to any wider system of knowledge about the world and the objects in it. Adversarial attacks perturb images by slightly pushing the RGB values in the image towards values that yield features (intermediate layer outputs) that push the decision to a different object. Where a human would immediately recognize the correct object maybe with the colours looking a bit strange, the ANN will confidently make absurd decisions. Adversarial attacks have been shown to cut the accuracy of state-of-the-are networks (both CNN-based and ResNet-based) in half or even less and fully understanding and mitigating the phenomenon is an open research question [1]. Finally, adversarial attacks are not restricted to machine vision but are ubiquitous across the spectrum of deep learning applications [691014].

The expectation is that deep learning engineers will eventually devise a way to counter adversarial attacks, just as they have eventually devised an architecture that is robust to ObjectNet angles and positions. But the underlying lack of reliability is still there waiting for more weakness to be discovered: When ANNs fail, they fail with confidence rather than recognizing an input as being an anomaly.

REQUIREMENT: In order to be reliable, artificial intelligence tools should either succeed or recognize that they have failed, by internalizing the understanding that the form (visual or other) presented by the input data is a superficial representation of underlying processes and mechanisms. A reliable artificial intelligence must not just map inputs to outputs, but it must use inputs to hypothesise about the processes and mechanisms that generated these inputs, so that it can reliably either correctly analyse what is being observed or raise an exception upon detecting incongruence and anomaly.

4 Design for Testability and Editability

For pragmatic [20] as well as regulatory [21] reasons, the deployment of opaque AI tools is meeting resistance especially in applications where the stakes are high. This has directed the interest of the research community to explainable AI (xAI). To summarize recent surveys [121319], xAI is clustered in two main approaches:

Local explanations show the part or parts of the input and their attributes that mostly contributed to make a specific decision. Techniques such as masking allow local explanations to be applied to black-box models.

Global explanations are typically generated from surrogate models. These are models in a human-interpretable and intuitive formalism that are trained using the outputs of the full model.

Local explanations can greatly help with error analysis, but fall short of being able to provide both the control and the insights about how the model perceives the world put forward as requirements above. As for surrogate models, as Rudin [24] convincingly argues, they are often misleading. To what one can add that there is also no way to port patches from the surrogate back to original model.

There are, however, several methods in the recent literature that move in the direction of explaining the original model. ANNs construct a latent space wherein they manipulate value vectors. Typically, learning algorithms apply bias towards dimensions that are as uncorrelated as possible so that all value vectors are possible and no parts of the space are left unused. This data-driven bias gives efficiency, but creates a space where the dimensions have no meaning that could be communicated or explained. Concept whitening [7] is a different learning bias that forces the dimensions of the latent space to align with pre-configured concepts of interest. An alternative approach exploits top-down feedback to take into account an explicit context. Where ResNet and similar recurrent ANNs would feed intermediate layers’ outputs backwards in order to provide context, mid-vision feedback [18] allows pushing back feedback that is not by necessity from the same network. Although this possibility is not yet fully explored, this does in principle allow pushing back a context constructed from categorical, symbolic knowledge.

These are new approaches to an old problem in AI, that of interfacing the data-driven conceptualizations (ways to organize objects) that emerge from machine learning with human-understandable and human-curated symbolic knowledge representations. Having a shared, or at least compatible, conceptual foundation is a promising path for explaining how AI slices and dices the world as it processes inputs to make a decision, so the recent drive for xAI has made neuro-symbolic approaches a prominent direction in the field [15].

Although neuro-symbolic AI can give us the transparency and editability we require, it is worth noting that many approaches impose upon the AI our prior conceptualization, rather than having the AI and the engineer establish a new and shared conceptualization. This violates the DFT objective we stated in the Introduction: forcing a prior conceptualization re-shapes and constrains functional features in order to facilitate testability, instead of adding non-functional features. This can lead to missing an opportunity to discover in the data previously unnoticed attributes and patterns.

REQUIREMENT: The reliability requirements stated above should be satisfied by improving AI methods and by adding non-functional features that facilitate monitor and control.

5 Conclusion

The proposed requirements might be ambitious, but the arguments presented to support them indicate that they are both needed and attainable. Needed because, although reliability is not the only aspect of trust that AI systems need to gain, it is the hardest to attain within the technical domain. It is also one, especially through monitor and control, that enables non-technical discussions on policy and accountability to be grounded on technical feasibility.

Regarding the extent to which they are realistic, the recent state of the art presented here is promising. To start with, explainability is mentioned by Maynord et al. [18] as a potential positive side-effect of mid-vision feedback, although without providing technical details on what is envisaged. But one can see that mid-vision feedback can be integrated with concepts from concept whitening in order to have a way to inspect what is represented in the intermediate layers of the network, at least at the level of characteristic examples. What mid-vision feedback provides to concept whitening is a way to operate without the need to supervise the system with characteristic samples of each concept. Concept whitening as originally formulated by Chen et al. [7] requires detailed supervision that does not scale well and (most importantly) restricts the degrees of freedom of the network. In mid-vision feedback, on the other hand, the network is free to look for novel ways to slice and dice the world as such ways emerge from the data, but the network does not have a way to communicate these new concepts and build a shared conceptualization between the human operator and itself. A promising path might be to have the network organize the world, present this organization by selecting or synthesising samples of each concept, and provide the operator with a way to disallow concepts. The operator has in mind a task that the system is trying to achieve and flags concepts that should be used as features for subsequent layers because they are biased, coincidental, or otherwise not warranted. Formally defining and actually implementing what it means to disallow a concept might be difficult in a way that generalizes across network architectures, but future research can implemented this in individual architectures and subsequently look for commonalities that can be factored out.

This line of thought naturally brings into the discussion the concept of modularization. Since the only explicit boundaries between network nodes are the layers, any conceptualization like the one described above will have to be based on clusters of the feature vectors propagated between layers. In the research plan described above we made no reference to how intermediate concepts are used by subsequent layers, and the operator had to exclude concepts on the basis of their being potentially used in a way that is counter to their intuition about the task.

It would be an obvious advantage to be able to communicate how concepts are actually used. Note, however, that in non-trivial applications we expect large numbers of concepts that all contribute to the next layer without necessarily having some weights stand out as particularly prominent. To be able to meaningfully communicate how concepts from different layer interact, we need to modularize the trained network into human-biteable chunks so that the operator can inspect them one by one without having to retain in working memory the complete set dependencies from one layer to the next. Naturally, as argued above, this modularization would ideally be posterior to training rather than am imposed prior.

Notwithstanding an imminent breakthrough in clustering methods, this will not be possible in the general case. A reasonable compromise can be imposing a defeasible prior modularization. To make this more concrete, suppose a prior conceptualization, broken down into layers (of abstraction and of the network) and imposing mutual exclusiveness or other axioms between the concepts in each layer. The network would have to either refine the concept definitions or decide that a re-organization of the concepts of a layers would improve the overall result in a way analogous to how mid-vision feedback simultaneously uses and shapes the context represented in intermediate layers. Neurosymbolic AI [25] and automatic differentiation [3] can make it possible to define and train more complex and more dynamic architectures, where well-defined modules interact in ways that are predefined but can change in the face of empirical evidence. These approaches assume a logical (in Neurosymbolic AI) or programmatic (in automatic differentiation) representation as the structural backbone of the network; both approaches propose methods for back-propagating loss through the complete network, exploiting the usual end-to-end supervision and avoiding detailed supervision.

As the strucure of the network can be inspected and edited, the operator can, for example, remove the dependency between two concepts from different layers instead of completely banning the concept in the earlier layer. To give a concrete example, consider the infamous example of classifying dogs vs. wolves based on the green or snowy background rather than on the actual animal [23]. Banning all concepts characterizing backgrounds does not require an understand of how concepts interact, but would render the network task-specific and not amenable to refinement to other tasks. Banning connections from background concepts to animal concepts would be a better way to communicate with a network, as it endows it with a more accurate and more generally useful piece of world knowledge.

We propose the dog vs wolf scenario, and many similar famous misclassfications from the deep vision literature and lore, as a good test case for research in neurosymbolic AI. Specifically, we propose that the test case is that a human operator is able to fix a misclassification by editing the logical part of the network and that an expert operator will be able to see what to edit without unforeseeable and catastrophic side-effects, just like an exper programmer can debug and correct a program with minimal suffering from long-distance side-effects.

Acknowledgments

This research was (co-)funded by the European Union under GA no. 101135782 (MANOLO project). Views and opinions expressed are however those of the authors only and do not necessarily reflect those of the European Union or CNECT. Neither the European Union nor CNECT can be held responsible for them.

References    

[1]

Anurag Arnab, Ondrej Miksik, and Philip H.S. Torr. 2018. On the Robustness of Semantic Segmentation Models to Adversarial Attacks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018).

Go to Citation

Crossref

Google Scholar

[2]

Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, and Boris Katz. 2019. ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models. In Advances in Neural Information Processing Systems 32: NeurIPS 2019.

Go to Citation

Google Scholar

[3]

Atılım Güne  s Baydin, Barak A. Pearlmutter, Alexey Andreyevich Radul, and Jeffrey Mark Siskind. 2018. Automatic Differentiation in Machine Learning: A Survey. Journal of Machine Learning Research 18 (April 2018).

Go to Citation

Google Scholar

[4]

Yoshua Bengio and Olivier Delalleau. 2011. On the Expressive Power of Deep Architectures. In Proc. 22nd International Conference on Algorithmic Learning Theory (ALT 2011), Espoo, Finland, 5-7 October 2011(LNAI, Vol. 6925). Springer.

Go to Citation

Google Scholar

[5]

Yoshua Bengio and Yann LeCun. 2007. Scaling learning algorithms towards AI. In Large-Scale Kernel Machines. The MIT Press.

Go to Citation

Crossref

Google Scholar

[6]

Eoin Brophy, Zhengwei Wang, Qi She, and Tomás Ward. 2023. Generative Adversarial Networks in Time Series: A Systematic Literature Review. Comput. Surveys 55, 10 (Feb. 2023).

Go to Citation

Digital Library

Google Scholar

[7]

Zhi Chen, Yijie Bei, and Cynthia Rudin. 2020. Concept whitening for interpretable image recognition. Nature Machine Intelligence 2 (Dec. 2020).

Crossref

Google Scholar

[8]

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In Proc. ICLR 2021, Vienna, Austria. arXiv:https://arXiv.org/abs/2010.11929v2 [cs.CV].

Go to Citation

Google Scholar

[9]

Narmin Ghaffari Laleh, Daniel Truhn, Gregory Patrick Veldhuizen, Tianyu Han, Marko van Treeck, Roman D. Buelow, Rupert Langer, Bastian Dislich, Peter Boor, Volkmar Schulz, and Jakob Nikolas Kather. 2022. Adversarial attacks and adversarial robustness in computational pathology. Nature Comm. 13 (2022).

Go to Citation

Google Scholar

[10]

Ke He, Dan Dongseong Kim, and Muhammad Rizwan Asghar. 2023. Adversarial Machine Learning for Network Intrusion Detection Systems: A Comprehensive Survey. IEEE Communications Surveys and Tutorials 25, 1 (2023).

Go to Citation

Digital Library

Google Scholar

[11]

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Conference on Computer Vision and Pattern Recognition (CVPR 2016), Las Vegas, NV, USA.

Go to Citation

Crossref

Google Scholar

[12]

Andreas Holzinger, Anna Saranti, Christoph Molnar, Przemyslaw Biecek, and Wojciech Samek. 2022. Explainable AI Methods - A Brief Overview. In Revised and Extended Papers of the International Workshop Beyond Explainable AI (xxAI), held at ICML 2020, Vienna, Austria, 18 July 2020(LNAI, Vol. 13200). Springer.

Go to Citation

Digital Library

Google Scholar

[13]

Mir Riyanul Islam, Mobyen Uddin Ahmed, Shaibal Barua, and Shahina Begum. 2022. A Systematic Review of Explainable Artificial Intelligence in Terms of Different Application Domains and Tasks. Applied Sciences 12, 3 (Jan. 2022).

Go to Citation

Crossref

Google Scholar

[14]

Shuai Jia, Chao Ma, Taiping Yao, Bangjie Yin, Shouhong Ding, and Xiaokang Yang. 2022. Exploring Frequency Adversarial Attacks for Face Forgery Detection. In Proceedings IEEE/CVF CVPR 2022.

Go to Citation

Crossref

Google Scholar

[15]

Henry Kautz. 2022. The Third AI Summer: AAAI Robert S. Engelmore Memorial Lecture. AI Magazine 43, 1 (2022).

Go to Citation

Digital Library

Google Scholar

[16]

Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. In Advances in Neural Information Processing Systems.

Go to Citation

Digital Library

Google Scholar

[17]

Chenxi Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. 2018. Progressive neural architecture search. In Proceedings of ECCV 2018.

Go to Citation

Digital Library

Google Scholar

[18]

Michael Maynord, Eadom Dessalene, Cornelia Fernmüller, and Yiannis Aloimonos. 2023. Mid-Vision Feedback. In Accpeted to the Eleventh International Conference on Learning Representations (ICLR 2023), Kigali, Rwanda, May 2023.

Google Scholar

[19]

Dang Minh, H. Xiang Wang, Y. Fen Li, and Tan N. Nguyen. 2021. Explainable artificial intelligence: A comprehensive review. Artificial Intelligence Review 55 (Nov. 2021).

Go to Citation

Digital Library

Google Scholar

[20]

Judea Pearl. 2019. The Limitations of Opaque Learning Machines. In Possible Minds: Twenty-Five Ways of Looking at AI, John Brockman (Ed.). Penguin Press.

Go to Citation

Google Scholar

[21]

Pekka Ala-Pietilä et al.2019. Ethics Guidelines for Trustworthy AI. Technical Report. The High-Level Expert Group on AI (AI HLEG), set up by the European Commission. https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai

Go to Citation

Google Scholar

[22]

Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 2016. You Only Look Once: Unified, Real-Time Object Detection. In Proceedings of CVPR 2016https://arxiv.org/abs/1506.02640v5

Go to Citation

Crossref

Google Scholar

[23]

Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. Why Should I Trust You? Explaining the Predictions of Any Classifier. arXiv:https://arXiv.org/abs/1602.04938 (2016).

Go to Citation

Google Scholar

[24]

Cynthia Rudin. 2019. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence 1 (May 2019).

Go to Citation

Crossref

Google Scholar

[25]

Md Kamruzzaman Saker, Lu Zhou, Aaron Eberhart, and Pascal Hitzler. 2022. Neuro-Symbolic AI: Current Trends. AI Communications 34, 3 (2022).

Go to Citation

Google Scholar

[26]

Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv:https://arXiv.org/abs/1409.1556 (2014).

Go to Citation

Google Scholar

[27]

Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A. Alemi. 2017. Inception-v4, inception-resnet and the impact of residual connections on learning. In Proc. Thirty-First AAAI Conference on Artificial Intelligence.

Go to Citation

Crossref

Google Scholar

[28]

Zijie J. Wang, Alex Kale, Harsha Nori, Peter Stella, Mark E. Nunnally, Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, and Rich Caruana. 2022. Interpretability, Then What? Editing Machine Learning Models to Reflect Human Knowledge and Values. In Proceedings KDD 2022.

Go to Citation

Digital Library

Google Scholar

[29]

Zhipeng Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu Shanghai, Tom Goldstein, and Yu-Gang Jiang. 2022. Towards Transferable Adversarial Attacks on Vision Transformers. In Proceedings of the AAAI Conference on Artificial Intelligence.