Por: Carlos A. FERREYROS SOTO
Doctor en Derecho
Universidad de Montpellier I Francia.
cferreyros@ferreyros-ferreyros.com
Resumen
El
documento critica un común supuesto en el campo de la inteligencia artificial:
un alto rendimiento en el laboratorio no implica automáticamente la fiabilidad
del sistema. Si bien los modelos de aprendizaje profundo han mostrado mejoras
en la gestión de ciertos desafíos controlados (como la robustez ante
distribuciones de datos específicas, como las de ObjectNet), el problema
subyacente de fiabilidad persiste. Cuando las redes neuronales artificiales
(RNA) se encuentran con entradas desconocidas o contradictorias, a menudo
fallan, al proporcionar predicciones de alta certeza, incluso en escenarios en
los que idealmente deberían reconocer anomalías o incertidumbre. Esto pone de
relieve un problema fundamental: los sistemas de IA actuales suelen carecer de
autoconciencia respecto a los límites de su propia competencia.
Para
que las herramientas de IA sean verdaderamente fiables, deben ir más allá
de simplemente procesar entradas y obtener resultados. El documento establece
un requisito claro: una IA fiable debe ser capaz de cumplir con éxito su tarea
o reconocer explícitamente fallos. Esto implica internalizar la comprensión de
que los datos de entrada observables (como imágenes u otra información de
sensores) son solo una manifestación superficial de procesos
subyacentes más profundos. Por lo tanto, un sistema fiable debe estar equipado
no solo para analizar e interpretar los datos de entrada, sino también
para formular hipótesis sobre los mecanismos subyacentes. Si una entrada
no se ajusta a los patrones esperados o contiene incongruencias, el sistema
debe generar una excepción de forma robusta, alertando a los usuarios o
cerrándose en lugar de ofrecer resultados potencialmente engañosos.
En
resumen, la confiabilidad en IA requiere más que predicciones de alta precisión
sobre tareas familiares. La IA no sólo debería generar resultados, sino también
tener mecanismos para reconocer y señalar cuando encuentra anomalías o
situaciones fuera de su competencia. También debería no solamente incorporar el
conocimiento previo del diseñador sino ampliar la innovación y la capacidad del
sistema para aprender o encontrar nuevos patrones de datos puesto que la
verdadera confiabilidad proviene de sistemas que formulan hipótesis sobre
los procesos generadores detrás de los datos, no solo de sistemas que se
destacan en las asignaciones de entrada y salida. Este artículo propone un
cambio de enfoque desde las métricas de evaluación tradicionales hacia una
comprensión más profunda a nivel de proceso y un manejo de excepciones en la
inteligencia artificial.
El
presente artículo publicado en ACM Digital Library, fue traducido del inglés al
castellano por el suscrito con la ayuda del aplicativo Google Translator. Se
adjunta copia en su versión original al final y el enlace al texto en Internet:
https://dl.acm.org/doi/10.1145/3688671.3688786
A fin de acceder a normas similares y estándares
europeos, las empresas, organizaciones públicas y privados interesados en
asesorías, consultorías, capacitaciones, estudios, evaluaciones, auditorías
sobre el tema, sírvanse comunicar al correo electrónico:cferreyros@ferreyros-ferreyros.com
____________________________________________
SOBRE LA
FIABILIDAD DE LOS SISTEMAS DE INTELIGENCIA ARTIFICIAL
Autor
Stasinos Konstantopoulos
Abstract
Este artículo propone un conjunto de requisitos técnicos concretos para
métodos de inteligencia artificial fiables. Si bien estos requisitos no abarcan
las dimensiones sociales, éticas ni regulatorias, sí abarcan los aspectos
técnicos del ciclo de vida completo de un sistema de IA, desde su diseño y
monitorización y control operativo hasta su comportamiento en caso de fallo. El
artículo concluye con un esquema para un plan de investigación ambicioso pero
realista que puede impulsar el estado del arte hacia sistemas de IA fiables.
1 Introducción
A medida que las tecnologías de inteligencia
artificial (IA), y en particular el aprendizaje automático (AA), alcanzan la madurez necesaria para su aplicación generalizada, el
debate sobre las salvaguardias y políticas necesarias cobra cada vez mayor
impulso. Este debate suele combinar múltiples dimensiones bajo el término de IA fiable: la evaluación técnica de las
tecnologías de IA en cuanto a su idoneidad para el propósito; las políticas que
se les pide a los operadores humanos que implementen y la responsabilidad de
estos operadores respecto a la fidelidad y acierto con que las implementan; y
los puntos de acceso que ofrece el sistema a sus operadores humanos para
supervisar y controlar eficazmente un sistema implementado.
En este artículo, analizaremos el concepto de fiabilidad. Si bien la
fiabilidad por sí sola no abarca completamente lo que suele entenderse como
fiabilidad de la IA, sí abarca todas sus dimensiones:
• La fiabilidad no se cubre
completamente con la precisión de la medición y las métricas de rendimiento
relevantes. Para ser fiable, un sistema debe cubrir requisitos no funcionales,
como la degradación gradual (en lugar del colapso) en condiciones de
implementación adversas, la mantenibilidad y la robustez a lo largo del tiempo.
• El diseño para la testabilidad
(DFT), principalmente en microelectrónica, consiste en añadir características
ya en fase de diseño que no satisfacen los requisitos funcionales, pero que
facilitan la prueba del sistema y el diagnóstico de fallos.
• Capacitar a los operadores
humanos para la monitorización y el control mediante los medios que les
ofrece el sistema para diagnosticar fallos y reaccionar ante ellos.
El objetivo de este documento de posición es interpretar estos objetivos
generales como requisitos técnicos concretos y argumentar que los requisitos
propuestos son ambiciosos pero realistas.
2 Monitoreo y Control
Aunque el término inteligencia artificial abarca una amplia variedad de
algoritmos, lo que suele preocupar en el contexto de la confiabilidad son las redes neuronales artificiales (RNA)
conexionistas o de inspiración neurológica. Estos sistemas codifican el
conocimiento en forma de una red compleja de nodos de procesamiento simples, de
modo que las decisiones que toma el sistema dependen de cómo interactúan los
nodos y no del procesamiento que se realiza en cada uno de ellos.
En el estado actual de la técnica, las RNA con millones de nodos pueden
construirse con hardware informático básico, mientras que las instancias
principales de RNA superan los 100 mil millones de nodos. Dado que la lógica
detrás de cada decisión se distribuye por toda la red, a estas escalas es
imposible monitorear o controlar las RNA mediante ingeniería de software
convencional. Es decir, es completamente imposible para un ingeniero seguir los
pasos del procesamiento desde las entradas hasta las salidas y, más aún,
controlar las salidas editando directamente el programa, los parámetros (pesos)
de las conexiones.
Como resultado, el monitoreo se limita a medir errores en sus salidas. El
control también se limita a decidir sobre la arquitectura de red, establecer la
tasa de aprendizaje y otros hiperparámetros, y aumentar o mejorar el conjunto
de datos de entrenamiento. Estas son decisiones importantes que pueden afectar
drásticamente el rendimiento, y las revisaremos más adelante en el contexto de
los grados de libertad ofrecidos a los desarrolladores de sistemas. Sin
embargo, en el contexto actual de la operación de una implementación, no se
puede esperar de forma realista que el sistema pueda rediseñarse y reentrenarse
para solucionar fallos menores. La única acción que el operador de campo puede
realizar es ignorar o apagar el sistema y devolverlo para su rediseño y
reentrenamiento, posiblemente adjuntando los puntos de datos que demuestran el
fallo.
Desde el punto de vista de la fiabilidad, esto genera dos problemas:
provoca la indisponibilidad del sistema incluso en fallos menores que en otros
sistemas técnicos normalmente se abordarían de inmediato; y debilita el canal
de retroalimentación de soluciones alternativas e improvisaciones, que es
invaluable para la mejora iterativa.
Para dar un ejemplo de un sistema de aprendizaje automático interpretable
y editable, considere GAM Changer [28].
GAM Changer aplica Modelos Aditivos Generalizados (GAM) al ámbito médico y
permite a los médicos analizar, validar y editar intuitivamente los modelos
para que sus comportamientos se ajusten a sus conocimientos y valores.
Naturalmente, esto se facilita principalmente porque los GAM son la combinación
lineal de los valores de entrada, un modelo sencillo e intuitivo. Aplicar
parches manualmente a las implementaciones de ANN sería mucho más complicado.
REQUISITO: Para aprovechar al máximo el
círculo virtuoso de mejora iterativa a través del uso, las implementaciones
activas deben poder contribuir no solo con datos de entrenamiento sino también
con improvisaciones y soluciones alternativas desarrolladas localmente, que
luego el proveedor generaliza en mejoras para todas las implementaciones.
3 El rendimiento en el laboratorio no es sinónimo de fiabilidad
Las RNA clásicas cuentan con tres capas de nodos completamente
conectados, pero la reciente revolución del aprendizaje profundo ha expandido
los nodos a lo largo de una arquitectura más profunda, con más de las tres
capas teóricamente requeridas. Se ha descubierto que las diferentes
arquitecturas de aprendizaje profundo presentan sus respectivas ventajas e
inconvenientes para diferentes aplicaciones, pero en todos los casos, una RNA
profunda tendrá un número considerablemente menor de posibles configuraciones
de conexión que una RNA completamente conectada y, por lo tanto, se pueden
entrenar redes mucho más grandes de forma realista. Este es un desarrollo muy
prometedor, no solo porque ha permitido escalar las redes profundas, sino
también porque las capas son, en realidad, niveles de representaciones cada vez
más abstractas de los datos de entrada [4,
5].
Esto ya reduce la opacidad de las RNA y ofrece oportunidades para la inspección
y manipulación humana.
Los recientes avances en visión artificial son un excelente ejemplo de
cómo la arquitectura puede tener profundos efectos en el comportamiento del
sistema. En visión artificial, la arquitectura lineal y sencilla de Redes
Neuronales Convolucionales (CNN) dominó originalmente el estado del arte [16,
26],
pero fue reemplazada por arquitecturas más complejas de Redes Neuronales
Residuales (ResNet), que incluyen conexiones que implementan capas recurrentes
y omisión de capas [11,
17,
27].
En un desarrollo paralelo, la arquitectura YOLO replantea el concepto de convolución
para superar la incapacidad de las CNN originales para considerar adecuadamente
el contexto [22], y sus últimas ediciones
también logran resultados de vanguardia.
Lo importante de la cronología anterior es que, si bien las redes
aumentan de tamaño con el tiempo, no fueron solo las redes más grandes las que
lograron avances significativos en rendimiento, sino también una comprensión
cada vez mejor del comportamiento de las diferentes arquitecturas y la
acumulación de experiencia sobre cómo diseñar arquitecturas que enfaticen los
beneficios relevantes para la aplicación en cuestión. Esto corrobora la
importancia del primer requisito mencionado, aunque en este contexto las
mejoras fueron resultado de la experiencia adquirida mediante la
experimentación en laboratorio, más que de las implementaciones. Sin embargo,
el argumento es, una vez más, que la mejora no se logró mediante la exposición
de un aprendiz de caja negra a datos cada vez más complejos y voluminosos, sino
mediante la ingeniería directa de su estructura.
A pesar de estos avances, las RNA siguen siendo relativamente frágiles,
lo que se manifiesta tanto en el conjunto de datos ObjectNet como en los
ataques adversarios. ObjectNet es una colección de imágenes de objetos
domésticos comunes fotografiados desde ángulos extraños o colocados de formas
extrañas, como boca abajo. Las pruebas de vanguardia en ObjectNet han arrojado
precisiones que son la mitad de las reportadas en los conjuntos de datos
habituales [2],
lo que demuestra cómo todos los sistemas de visión artificial no logran
capturar las propiedades esenciales de estos objetos y se basan en pistas
visuales superficiales.
Desarrollos posteriores, como Visual Transformers (ViT), han aumentado
considerablemente su robustez en ObjectNet [8],
pero la afirmación anterior sobre su falta de robustez se mantiene, como lo
demuestran los ataques adversarios desarrollados posteriormente a su
introducción [29].
Los ataques adversarios también explotan el hecho de que las RNA no analizan ni
verifican la validez de sus decisiones. Cada capa es una función matemática que
asigna matrices de valores a otros valores, y la red completa asigna una matriz
de valores RGB a un valor de decisión sin conectar estas salidas a ningún
sistema más amplio de conocimiento sobre el mundo y los objetos que lo
componen. Los ataques adversarios perturban las imágenes al desplazar
ligeramente los valores RGB hacia valores que generan características (salidas
de la capa intermedia) que impulsan la decisión hacia un objeto diferente.
Donde un humano reconocería inmediatamente el objeto correcto, quizás con
colores un poco extraños, la RNA tomará decisiones absurdas con confianza. Se
ha demostrado que los ataques adversarios reducen la precisión de las redes de
última generación (tanto las basadas en CNN como en ResNet) a la mitad o
incluso menos, y comprender y mitigar completamente este fenómeno es una
cuestión de investigación abierta [1].
Finalmente, los ataques adversarios no se limitan a la visión artificial, sino
que son omnipresentes en todo el espectro de aplicaciones de aprendizaje
profundo [6,
9,
10,
14].
Se espera que los ingenieros de aprendizaje profundo eventualmente ideen una
forma de contrarrestar los ataques adversarios, tal como finalmente han
diseñado una arquitectura robusta a los ángulos y posiciones de ObjectNet. Sin
embargo, la falta de confiabilidad subyacente persiste, a la espera de que se
descubran más debilidades: cuando las RNA fallan, lo hacen con confianza en
lugar de reconocer una entrada como una anomalía.
REQUISITO: Para ser confiables, las
herramientas de inteligencia artificial deben tener éxito o reconocer su
fracaso, internalizando la comprensión de que la forma (visual u otra) que
presentan los datos de entrada es una representación superficial de los
procesos y mecanismos subyacentes. Una inteligencia artificial confiable no
debe simplemente mapear las entradas con las salidas, sino que debe usar las
entradas para formular hipótesis sobre los procesos y mecanismos que las
generaron, de modo que pueda analizar correctamente lo observado o generar una
excepción al detectar incongruencias o anomalías.
4 Diseño para la Testabilidad y Editabilidad
Por razones pragmáticas [20]
y regulatorias [21],
la implementación de herramientas de IA opacas está encontrando resistencia,
especialmente en aplicaciones con alto riesgo. Esto ha despertado el interés de
la comunidad investigadora en la IA explicable (xAI). Resumiendo estudios
recientes [12,
13,
19],
la xAI se agrupa en dos enfoques principales:
• Las explicaciones locales muestran la parte o partes de la entrada y
sus atributos que más contribuyeron a tomar una decisión específica. Técnicas
como el enmascaramiento permiten aplicar explicaciones locales a modelos de
caja negra.
• Las explicaciones globales se generan típicamente a partir de modelos
sustitutos. Estos son modelos con un formalismo intuitivo y de fácil
interpretación humana que se entrenan utilizando los resultados del modelo
completo.
Las explicaciones locales pueden ser de gran ayuda en el análisis de
errores, pero no son capaces de proporcionar tanto el control como la
información sobre cómo el modelo percibe el mundo, tal como se plantea en los
requisitos anteriores. En cuanto a los modelos sustitutos, como argumenta
convincentemente Rudin [24],
a menudo son engañosos. A lo que se puede añadir que tampoco es posible
transferir parches del sustituto al modelo original.
Sin embargo, existen varios métodos en la literatura reciente que buscan
explicar el modelo original. Las RNA construyen un espacio latente donde
manipulan vectores de valores. Normalmente, los algoritmos de aprendizaje
aplican un sesgo hacia las dimensiones con la menor correlación posible, de
modo que todos los vectores de valores sean posibles y ninguna parte del
espacio quede sin utilizar. Este sesgo basado en datos proporciona eficiencia,
pero crea un espacio donde las dimensiones carecen de significado que pueda
comunicarse o explicarse. El blanqueamiento de conceptos [7]
es un sesgo de aprendizaje diferente que fuerza las dimensiones del espacio
latente a alinearse con los conceptos de interés pre configurados. Un enfoque
alternativo aprovecha la retroalimentación descendente para tener en cuenta un
contexto explícito. Mientras que ResNet y otras RNA recurrentes similares
retroalimentan las salidas de las capas intermedias para proporcionar contexto,
la retroalimentación de visión media [18]
permite retroalimentar la retroalimentación que no proviene necesariamente de
la misma red. Si bien esta posibilidad aún no se ha explorado por completo, en
principio permite retroalimentar un contexto construido a partir de
conocimiento simbólico categórico.
Estos son nuevos enfoques para un viejo problema en IA: la interconexión
de las conceptualizaciones basadas en datos (formas de organizar objetos) que
surgen del aprendizaje automático con representaciones de conocimiento
simbólico comprensibles y elaboradas por humanos. Contar con una base
conceptual compartida, o al menos compatible, es una vía prometedora para
explicar cómo la IA segmenta el mundo a medida que procesa las entradas para
tomar una decisión. Por ello, el reciente impulso hacia la xAI ha convertido a
los enfoques neurosimbólicos en una dirección destacada en este campo [15].
Si bien la IA neurosimbólica puede brindarnos la transparencia y la
capacidad de edición que necesitamos, cabe destacar que muchos enfoques imponen
a la IA nuestra conceptualización previa,
en lugar de que la IA y el ingeniero establezcan una nueva conceptualización
compartida. Esto contradice el objetivo de la DFT que planteamos en la
Introducción: forzar una conceptualización previa redefine y restringe las
características funcionales para facilitar la testabilidad, en lugar de añadir
características no funcionales. Esto puede llevar a perder la oportunidad de
descubrir en los datos atributos y patrones previamente inadvertidos.
REQUISITO: Los requisitos de fiabilidad mencionados anteriormente deben
satisfacerse mejorando los métodos de IA y añadiendo características no
funcionales que faciliten la monitorización y el control.
5 Conclusión
Los requisitos propuestos pueden ser ambiciosos, pero los argumentos
presentados para respaldarlos indican que son necesarios y alcanzables.
Necesarios porque, si bien la fiabilidad no es el único aspecto de la confianza
que los sistemas de IA necesitan obtener, es el más difícil de lograr en el
ámbito técnico. También es uno de los aspectos, especialmente a través de la
monitorización y el control, que permite que los debates no técnicos sobre
políticas y rendición de cuentas se basen en la viabilidad técnica.
En cuanto a su grado de realismo, el estado del arte reciente presentado
aquí es prometedor. Para empezar, Maynord et al. [18]
mencionan la explicabilidad como un posible efecto secundario positivo de la
retroalimentación de visión media, aunque sin proporcionar detalles técnicos
sobre lo que se prevé. Sin embargo, se puede observar que la retroalimentación
de visión media puede integrarse con conceptos del blanqueamiento de conceptos
para tener una forma de inspeccionar lo que se representa en las capas
intermedias de la red, al menos a nivel de ejemplos característicos. Lo que la
retroalimentación de visión media proporciona al blanqueamiento de conceptos es
una forma de operar sin la necesidad de supervisar el sistema con muestras
características de cada concepto. El blanqueamiento de conceptos, tal como lo
formularon originalmente Chen et Al. [7],
requiere una supervisión detallada que no escala bien y, lo más importante,
restringe los grados de libertad de la red. Por otro lado, en la
retroalimentación de visión intermedia, la red tiene la libertad de buscar
nuevas formas de segmentar el mundo a medida que estas surgen de los datos,
pero no tiene forma de comunicar estos nuevos conceptos ni de construir una
conceptualización compartida entre el operador humano y ella misma. Una vía
prometedora podría ser que la red organice el mundo, presente esta organización
seleccionando o sintetizando muestras de cada concepto y proporcione al
operador una forma de rechazar conceptos. El operador tiene en mente una tarea
que el sistema intenta lograr y marca los conceptos que deberían usarse como
características para las capas posteriores porque están sesgados, son
coincidentes o no están justificados. Definir formalmente e implementar
realmente lo que significa rechazar un concepto puede ser difícil de
generalizar en todas las arquitecturas de red, pero la investigación futura
puede implementar esto en arquitecturas individuales y, posteriormente, buscar
puntos en común que puedan descartarse.
Esta línea de pensamiento introduce naturalmente en la discusión el
concepto de modularización. Dado que
los únicos límites explícitos entre los nodos de la red son las capas,
cualquier conceptualización como la descrita anteriormente deberá basarse en
grupos de vectores de características propagados entre capas. En el plan de
investigación descrito anteriormente, no hicimos referencia a cómo las capas
posteriores utilizan los conceptos intermedios, y el operador tuvo que excluir
conceptos por su potencial uso
contrario a su intuición sobre la tarea.
Sería una ventaja obvia poder comunicar cómo se utilizan realmente los
conceptos. Sin embargo, cabe destacar que en aplicaciones no triviales
esperamos un gran número de conceptos que contribuyan a la siguiente capa sin
que necesariamente algunos pesos destaquen de forma prominente. Para poder
comunicar de forma significativa cómo interactúan los conceptos de diferentes
capas, necesitamos modularizar la red entrenada en fragmentos de fácil
comprensión para que el operador pueda inspeccionarlos uno por uno sin tener
que retener en la memoria de trabajo las dependencias completas de una capa a la
siguiente. Naturalmente, como se argumentó anteriormente, esta modularización
idealmente sería posterior al entrenamiento en lugar de impuesta con
anterioridad.
A pesar de un avance inminente en los métodos de agrupamiento, esto no
será posible en el caso general. Un compromiso razonable puede ser imponer una
modularización previa derrotable. Para hacer esto más concreto, supongamos una
conceptualización previa, dividida en capas (de abstracción y de la red) e
imponiendo exclusividad mutua u otros axiomas entre los conceptos en cada capa.
La red tendría que refinar las definiciones de concepto o decidir que una
reorganización de los conceptos de una capa mejoraría el resultado general de
una manera análoga a cómo la retroalimentación de visión media usa y da forma
simultáneamente al contexto representado en capas intermedias. La IA
neurosimbólica [25]
y la diferenciación automática [3]
pueden hacer posible definir y entrenar arquitecturas más complejas y
dinámicas, donde los módulos bien definidos interactúan de maneras que están
predefinidas pero pueden cambiar ante la evidencia empírica. Estos enfoques
asumen una representación lógica (en IA neurosimbólica) o programática (en
diferenciación automática) como la columna vertebral estructural de la red;
Ambos enfoques proponen métodos para retro propagar las pérdidas a través de
toda la red, aprovechando la supervisión habitual de extremo a extremo y
evitando la supervisión detallada.
Como la estructura de la red se puede inspeccionar y editar, el operador
puede, por ejemplo, eliminar la dependencia entre dos conceptos de capas
diferentes en lugar de prohibir completamente el concepto en la capa anterior.
Para dar un ejemplo concreto, considere el infame ejemplo de clasificar perros
frente a lobos basándose en el fondo verde o nevado en lugar del animal en sí
[23]. Prohibir todos los conceptos que caracterizan los fondos no requiere
comprender cómo interactúan los conceptos, pero haría que la red fuera
específica de la tarea y no susceptible de refinamiento para otras tareas.
Prohibir las conexiones entre los conceptos de fondo y los conceptos de
animales sería una mejor manera de comunicarse con una red, ya que le otorga un
conocimiento del mundo más preciso y, en general, más útil.
Proponemos el escenario del perro frente al lobo, y muchas
clasificaciones erróneas famosas similares de la literatura y la tradición
sobre visión profunda, como un buen caso de prueba para la investigación en IA
neurosimbólica. En concreto, proponemos que el caso de prueba sea que un operador
humano sea capaz de corregir una clasificación errónea editando la parte lógica
de la red y que un operador experto pueda ver qué editar sin efectos
secundarios imprevisibles y catastróficos, de la misma forma que un programador
experto puede depurar y corregir un programa con un sufrimiento mínimo de
efectos secundarios a larga distancia.
Agradecimientos
Esta investigación fue (co)financiada por la Unión Europea con el número
de autorización general 101135782 (proyecto MANOLO). Sin embargo, las opiniones
y puntos de vista expresados son exclusivamente de los autores y no reflejan
necesariamente los de la Unión Europea ni del CNECT. Ni la Unión Europea ni el
CNECT se responsabilizan de ellas.
Referencias
Anurag
Arnab, Ondrej Miksik, and Philip H.S. Torr. 2018. On the Robustness of
Semantic Segmentation Models to Adversarial Attacks. In Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018).
Go to
Citation
Crossref
Google Scholar
[2]
Andrei
Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan
Gutfreund, Josh Tenenbaum, and Boris Katz. 2019. ObjectNet: A large-scale
bias-controlled dataset for pushing the limits of object recognition models.
In Advances in Neural Information Processing Systems 32: NeurIPS 2019.
Go to
Citation
Google Scholar
[3]
Atılım Güne
s Baydin, Barak A. Pearlmutter, Alexey Andreyevich Radul, and
Jeffrey Mark Siskind. 2018. Automatic Differentiation in Machine Learning:
A Survey. Journal of Machine Learning Research 18 (April
2018).
Go to
Citation
Google Scholar
[4]
Yoshua
Bengio and Olivier Delalleau. 2011. On the Expressive Power of Deep
Architectures. In Proc. 22nd International Conference on Algorithmic
Learning Theory (ALT 2011), Espoo, Finland, 5-7 October 2011(LNAI,
Vol. 6925). Springer.
Go to
Citation
Google Scholar
[5]
Yoshua
Bengio and Yann LeCun. 2007. Scaling learning algorithms towards AI. In Large-Scale
Kernel Machines. The MIT Press.
Go to
Citation
Crossref
Google Scholar
[6]
Eoin
Brophy, Zhengwei Wang, Qi She, and Tomás Ward. 2023. Generative Adversarial Networks
in Time Series: A Systematic Literature Review. Comput. Surveys 55,
10 (Feb. 2023).
Go to
Citation
Digital Library
Google Scholar
[7]
Zhi Chen,
Yijie Bei, and Cynthia Rudin. 2020. Concept whitening for interpretable image
recognition. Nature Machine Intelligence 2 (Dec. 2020).
Crossref
Google Scholar
[8]
Alexey
Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,
Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain
Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words:
Transformers for Image Recognition at Scale. In Proc. ICLR 2021,
Vienna, Austria. arXiv:https://arXiv.org/abs/2010.11929v2
[cs.CV].
Go to
Citation
Google Scholar
[9]
Narmin
Ghaffari Laleh, Daniel Truhn, Gregory Patrick Veldhuizen, Tianyu Han,
Marko van Treeck, Roman D. Buelow, Rupert Langer, Bastian Dislich, Peter
Boor, Volkmar Schulz, and Jakob Nikolas Kather. 2022. Adversarial attacks
and adversarial robustness in computational pathology. Nature Comm. 13
(2022).
Go to
Citation
Google Scholar
[10]
Ke He,
Dan Dongseong Kim, and Muhammad Rizwan Asghar. 2023. Adversarial
Machine Learning for Network Intrusion Detection Systems: A Comprehensive
Survey. IEEE Communications Surveys and Tutorials 25, 1
(2023).
Go to
Citation
Digital Library
Google Scholar
[11]
Kaiming
He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for
image recognition. In Conference on Computer Vision and Pattern
Recognition (CVPR 2016), Las Vegas, NV, USA.
Go to
Citation
Crossref
Google Scholar
[12]
Andreas
Holzinger, Anna Saranti, Christoph Molnar, Przemyslaw Biecek, and Wojciech
Samek. 2022. Explainable AI Methods - A Brief Overview. In Revised and
Extended Papers of the International Workshop Beyond Explainable AI (xxAI),
held at ICML 2020, Vienna, Austria, 18 July 2020(LNAI,
Vol. 13200). Springer.
Go to
Citation
Digital Library
Google Scholar
[13]
Mir Riyanul
Islam, Mobyen Uddin Ahmed, Shaibal Barua, and Shahina Begum. 2022. A
Systematic Review of Explainable Artificial Intelligence in Terms of Different
Application Domains and Tasks. Applied Sciences 12, 3 (Jan.
2022).
Go to
Citation
Crossref
Google Scholar
[14]
Shuai Jia,
Chao Ma, Taiping Yao, Bangjie Yin, Shouhong Ding, and Xiaokang Yang. 2022.
Exploring Frequency Adversarial Attacks for Face Forgery Detection. In Proceedings
IEEE/CVF CVPR 2022.
Go to
Citation
Crossref
Google Scholar
[15]
Henry
Kautz. 2022. The Third AI Summer: AAAI Robert S. Engelmore Memorial
Lecture. AI Magazine 43, 1 (2022).
Go to
Citation
Digital Library
Google Scholar
[16]
Alex
Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet
Classification with Deep Convolutional Neural Networks. In Advances in
Neural Information Processing Systems.
Go to
Citation
Digital Library
Google Scholar
[17]
Chenxi
Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li
Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. 2018. Progressive
neural architecture search. In Proceedings of ECCV 2018.
Go to
Citation
Digital Library
Google Scholar
[18]
Michael
Maynord, Eadom Dessalene, Cornelia Fernmüller, and Yiannis Aloimonos. 2023.
Mid-Vision Feedback. In Accpeted to the Eleventh International
Conference on Learning Representations (ICLR 2023), Kigali, Rwanda, May 2023.
Google Scholar
[19]
Dang Minh,
H. Xiang Wang, Y. Fen Li, and Tan N. Nguyen. 2021. Explainable
artificial intelligence: A comprehensive review. Artificial
Intelligence Review 55 (Nov. 2021).
Go to
Citation
Digital Library
Google Scholar
[20]
Judea
Pearl. 2019. The Limitations of Opaque Learning Machines. In Possible
Minds: Twenty-Five Ways of Looking at AI, John Brockman (Ed.). Penguin
Press.
Go to
Citation
Google Scholar
[21]
Pekka
Ala-Pietilä et al.2019. Ethics Guidelines for Trustworthy AI.
Technical Report. The High-Level Expert Group on AI (AI HLEG), set up by the
European Commission. https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai
Go to
Citation
Google Scholar
[22]
Joseph
Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 2016. You Only Look
Once: Unified, Real-Time Object Detection. In Proceedings of CVPR 2016. https://arxiv.org/abs/1506.02640v5
Go to
Citation
Crossref
Google Scholar
[23]
Marco Tulio
Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. Why Should I Trust You?
Explaining the Predictions of Any Classifier. arXiv:https://arXiv.org/abs/1602.04938 (2016).
Go to
Citation
Google Scholar
[24]
Cynthia
Rudin. 2019. Stop explaining black box machine learning models for high stakes
decisions and use interpretable models instead. Nature Machine
Intelligence 1 (May 2019).
Go to
Citation
Crossref
Google Scholar
[25]
Md Kamruzzaman
Saker, Lu Zhou, Aaron Eberhart, and Pascal Hitzler. 2022. Neuro-Symbolic AI:
Current Trends. AI Communications 34, 3 (2022).
Go to
Citation
Google Scholar
[26]
Karen
Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for
large-scale image recognition. arXiv:https://arXiv.org/abs/1409.1556 (2014).
Go to Citation
Google Scholar
[27]
Christian
Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A. Alemi. 2017.
Inception-v4, inception-resnet and the impact of residual connections on
learning. In Proc. Thirty-First AAAI Conference on Artificial
Intelligence.
Go to
Citation
Crossref
Google Scholar
[28]
Zijie J.
Wang, Alex Kale, Harsha Nori, Peter Stella, Mark E. Nunnally,
Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, and
Rich Caruana. 2022. Interpretability, Then What? Editing Machine Learning
Models to Reflect Human Knowledge and Values. In Proceedings KDD 2022.
Go to
Citation
Digital Library
Google Scholar
[29]
Zhipeng
Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu Shanghai, Tom Goldstein, and
Yu-Gang Jiang. 2022. Towards Transferable Adversarial Attacks on Vision
Transformers. In Proceedings of the AAAI Conference on Artificial
Intelligence.
__________________________
On the Reliability of Artificial Intelligence Systems
Author:
Stasinos KonstantopoulosAuthors Info &
Claims
SETN '24: Proceedings of
the 13th Hellenic Conference on Artificial Intelligence
Article No.: 30,
Pages 1 - 4
https://doi.org/10.1145/3688671.3688786
Published: 27 December 2024 Publication History
0citation568Downloads
PDFeReader
SETN '24: Proceedings of the 13th
Hellenic Conference on Artificial Intelligence
On the Reliability of Artificial Intelligence Systems
Pages 1 - 4
Abstract
This article
proposes a set of concrete technical requirements for trustworthy artificial
intelligence methods. Although these requirements do not cover the social,
ethical, or regulatory dimensions, they do cover the technical aspects of the
complete life-cycle of an AI system, from its design and operational monitoring
and control to its behaviour when it fails. The article concludes with an
outline for an ambitious but realistic research plan that can advance the state
of the art in the direction of reliable AI systems.
1 Introduction
As artificial intelligence (AI) technologies,
and most prominently among them machine learning (ML), are reaching
the maturity needed for widespread application, the discussion on the
safeguards and policies that need to be in place is picking up pace and volume.
This discussion usually conflates multiple dimensions under the term of trustworthy
AI: The technical evaluation of AI technologies with respect to their being
fit for purpose; The policies that the human operators are asked to implement
and the accountability of these operators with respect to how faithfully and
aptly they implement them; And the access points offered by the system to its
human operators to effectively monitor and control a deployed system.
In this article we will discuss the concept of reliability.
Although reliability alone does not completely cover what is usually understood
as AI trustworthiness, it does cut across all its dimensions:
•
Reliability is not completely
covered by measuring accuracy and relevant performance metrics. To be reliable
a system should cover non-functional requirements such as graceful degradation
(rather than collapse) in adverse deployment conditions, maintainability, and
robustness in time.
•
Design for testability (DFT), primarily in
microelectronics, is the addition of features already at design time that do
not satisfy functional requirements but make it easier to test the system and
to diagnose failures.
•
Empowering human operators to monitor
and control through means offered to them by the system to diagnose failures
and to react to these failures.
The aim of this position paper is to interpret these
general objectives as concrete technical requirements and to argue that the
proposed requirements are ambitious but realistic.
2 Monitoring and Control
Although the term artificial intelligence subsumes a
wide variety of algorithms, what is usually of concern in the context of
trustworthiness are connectionist, or neuro-inspired, artificial neural
networks (ANN). These systems encode knowledge in the form of a complex
network of simple processing nodes, so that the decisions made by the system
depend on how the nodes interact rather than on the processing that takes place
on any one node.
At the current state of the art ANNs with millions of
nodes can be built with commodity computer hardware, while major ANN instances
exceed 100 billion nodes. As the logic behind each decision is distributed
throughout the network, at these scales it is out of the question that ANNs can
be monitored or controlled applying conventional software engineering. That is,
it is completely impossible for an engineer to follow the processing steps from
inputs to outputs and, even more so, to control the outputs by directly editing
the ‘program’, the parameters (weights) of the connections.
As a result, monitoring is restricted to measuring
errors in its outputs. Control is also limited to deciding on the network
architecture, setting the learning rate and other hyper-parameters, and
augmenting or improving the training dataset. These are important decisions
that can dramatically affect performance, and we will revisit them below in the
context of the degrees of freedom offered to system developers. But in the
current context of operating a deployment, it cannot be realistically expected
that the system can be re-designed and re-trained to address minor failures.
The only action that the field operator can perform is to ignore or shut down
the system and send it back for re-design and re-training, possibly attaching
the datapoints that demonstrate the failure.
From a reliability point of view, this creates two
problems: it causes system non-availability even in minor failures that in
other technical systems would normally be addressed on the spot; and it
enervates the feedback channel of work-arounds and improvisations that is
invaluable for iterative improvement.
To give an example of an interpretable and editable
machine learning system, consider GAM Changer [28]. GAM Changer applies Generalized Additive Models (GAM) to
the medical domain and allows physicians to analyse, validate, and intuitively
edit models so that model behaviours align with their knowledge and values.
Naturally, this is mostly facilitated by the fact that GAMs are the linear
combination of the input values, a straight-forward and intuitive model.
Manually ‘patching’ ANN deployments would be a lot less straightforward, but no
less desirable.
REQUIREMENT: In order to take full advantage of the virtuous
circle of iteratively improving through usage, active deployments
should be able to contribute not only training data but also locally developed
improvisations and work-arounds, which are then generalized by the vendor into
improvements for all deployments.
3 Performance in the Lab Is Not Reliability
Classical ANNs have three fully-connected layers of
nodes, but the recent deep learning revolution spreads nodes
along a deeper architecture with more than the three theoretically required
layers. Different deep learning architectures have been found to have their
respective benefits and drawbacks for different applications, but in all cases
a deep ANN will have a dramatically smaller number of possible connection
configurations than a fully connected ANN and thus much larger networks can be
realistically trained. This is a very promising development, not only because
it has allowed deep networks to scale but also because layers are, effectively,
levels of increasingly abstract representations of the input data [4, 5]. This already makes ANNs less opaque and affords opportunities for human
inspection and manipulation.
Recent developments in computer vision serve as a
prime example of how the architecture can have profound effects on the
behaviour of the system. In machine vision, the straight-forward, linear Convolutional
Neural Network (CNN) architecture originally dominated the state of
the art [16, 26], but was superseded by more complex Residual Neural Network
(ResNet) architectures that include connections that implement
recurrent layers and layer skipping [11, 17, 27]. In a parallel development, the YOLO architecture re-frames the idea of
convolution in order to overcome the inability of the original CNNs to properly
take into account context [22], with its latest editions also achieving state-of-the-art results.
What is important to note in the above timeline is
that although networks do get larger over time, it was not larger networks
alone that achieved major strides in performance but also an ever-improving understanding
of how different architectures behave and the accumulation of expertise on how
to best engineer architectures that emphasise benefits relevant to the
application at hand. This corroborates to the importance of the first
requirement above, although in this context the improvements were the result of
the experience gained through lab experimentation rather than deployments. But
the argument is again that improvement came not through exposing a black-box
learner to increasingly complex and voluminous data but through directly
engineering the structure of the learner.
Notwithstanding these advances, ANNs remain relatively
flimsy, which is manifested both by the ObjectNet dataset and adversarial
attacks. ObjectNet is a collection of images of common
household objects photographed from strange angles or positioned in strange
ways, such as upside down. Testing the state of the art on ObjectNet has given
accuracies that are half of what is reported on the usual datasets [2], demonstrating how all machine vision systems fail to capture the
essential properties of these objects and rely on superficial visual clues.
Subsequent developments such as Visual
Transformers (ViT) have greatly increased their robustness on
ObjectNet [8], but the statement above about their lack of robustness stands as
demonstrated by adversarial attacks developed subsequently to
their introduction [29]. Adversarial attacks also exploit the fact that ANNs do not analyse or
sanity-check their decisions. Each layer is a mathematical function that maps
arrays of values to other values, and the complete network maps an array of RGB
values to a decision value without connecting these outputs to any wider system
of knowledge about the world and the objects in it. Adversarial attacks perturb
images by slightly pushing the RGB values in the image towards values that
yield features (intermediate layer outputs) that push the decision to a
different object. Where a human would immediately recognize the correct object
maybe with the colours looking a bit strange, the ANN will confidently make
absurd decisions. Adversarial attacks have been shown to cut the accuracy of
state-of-the-are networks (both CNN-based and ResNet-based) in half or
even less and fully understanding and mitigating the phenomenon is an
open research question [1]. Finally, adversarial attacks are not restricted to machine vision but
are ubiquitous across the spectrum of deep learning applications [6, 9, 10, 14].
The expectation is that deep learning engineers will
eventually devise a way to counter adversarial attacks, just as they have
eventually devised an architecture that is robust to ObjectNet angles and
positions. But the underlying lack of reliability is still there waiting for
more weakness to be discovered: When ANNs fail, they fail with confidence rather
than recognizing an input as being an anomaly.
REQUIREMENT: In order to be reliable, artificial intelligence tools should
either succeed or recognize that they have failed, by internalizing the
understanding that the form (visual or other) presented by the input data is a
superficial representation of underlying processes and mechanisms. A reliable
artificial intelligence must not just map inputs to outputs, but it must use
inputs to hypothesise about the processes and mechanisms that generated these inputs,
so that it can reliably either correctly analyse what is being observed or
raise an exception upon detecting incongruence and anomaly.
4 Design for Testability and Editability
For pragmatic [20] as well as regulatory [21] reasons, the deployment of opaque AI tools is meeting resistance
especially in applications where the stakes are high. This has directed the
interest of the research community to explainable AI (xAI). To
summarize recent surveys [12, 13, 19], xAI is clustered in two main approaches:
•
Local
explanations show the part or parts of the input and their attributes that
mostly contributed to make a specific decision. Techniques such as masking
allow local explanations to be applied to black-box models.
•
Global
explanations are typically generated from surrogate models. These
are models in a human-interpretable and intuitive formalism that are trained
using the outputs of the full model.
Local explanations can greatly help with error
analysis, but fall short of being able to provide both the control and the
insights about how the model perceives the world put forward as requirements
above. As for surrogate models, as Rudin [24] convincingly argues, they are often misleading. To what one can add that
there is also no way to port patches from the surrogate back to original model.
There are, however, several methods in the recent
literature that move in the direction of explaining the original model. ANNs
construct a latent space wherein they manipulate value
vectors. Typically, learning algorithms apply bias towards dimensions that are
as uncorrelated as possible so that all value vectors are possible and no parts
of the space are left unused. This data-driven bias gives efficiency, but
creates a space where the dimensions have no meaning that could be communicated
or explained. Concept whitening [7] is a different learning bias that forces the dimensions of the latent
space to align with pre-configured concepts of interest. An alternative
approach exploits top-down feedback to take into account an explicit context.
Where ResNet and similar recurrent ANNs would feed
intermediate layers’ outputs backwards in order to provide context, mid-vision
feedback [18] allows pushing back feedback that is not by necessity from the same
network. Although this possibility is not yet fully explored, this does in
principle allow pushing back a context constructed from categorical, symbolic
knowledge.
These are new approaches to an old problem in AI, that
of interfacing the data-driven conceptualizations (ways to organize objects)
that emerge from machine learning with human-understandable and human-curated
symbolic knowledge representations. Having a shared, or at least compatible,
conceptual foundation is a promising path for explaining how AI slices and
dices the world as it processes inputs to make a decision, so the recent drive
for xAI has made neuro-symbolic approaches a prominent
direction in the field [15].
Although neuro-symbolic AI can give us the transparency
and editability we require, it is worth noting that many approaches impose upon
the AI our prior conceptualization, rather than having the AI
and the engineer establish a new and shared conceptualization.
This violates the DFT objective we stated in the Introduction: forcing a prior
conceptualization re-shapes and constrains functional features in order to
facilitate testability, instead of adding non-functional features. This can
lead to missing an opportunity to discover in the data previously unnoticed
attributes and patterns.
REQUIREMENT: The reliability requirements stated above should be satisfied by
improving AI methods and by adding non-functional features that facilitate
monitor and control.
5 Conclusion
The proposed requirements might be ambitious, but the
arguments presented to support them indicate that they are both needed and
attainable. Needed because, although reliability is not the only aspect of
trust that AI systems need to gain, it is the hardest to attain within the
technical domain. It is also one, especially through monitor and control, that
enables non-technical discussions on policy and accountability to be grounded
on technical feasibility.
Regarding the extent to which they are realistic, the
recent state of the art presented here is promising. To start with,
explainability is mentioned by Maynord et al. [18] as a potential positive side-effect of mid-vision feedback, although
without providing technical details on what is envisaged. But one can see that
mid-vision feedback can be integrated with concepts from concept whitening in
order to have a way to inspect what is represented in the intermediate layers
of the network, at least at the level of characteristic examples. What
mid-vision feedback provides to concept whitening is a way to operate without
the need to supervise the system with characteristic samples of each concept.
Concept whitening as originally formulated by Chen et al. [7] requires detailed supervision that does not scale well and (most
importantly) restricts the degrees of freedom of the network. In mid-vision
feedback, on the other hand, the network is free to look for novel ways to
slice and dice the world as such ways emerge from the data, but the network
does not have a way to communicate these new concepts and build a shared
conceptualization between the human operator and itself. A promising path might
be to have the network organize the world, present this organization by
selecting or synthesising samples of each concept, and provide the operator
with a way to disallow concepts. The operator has in mind a task that the system
is trying to achieve and flags concepts that should be used as features for
subsequent layers because they are biased, coincidental, or otherwise not
warranted. Formally defining and actually implementing what it means to
disallow a concept might be difficult in a way that generalizes across network
architectures, but future research can implemented this in individual
architectures and subsequently look for commonalities that can be factored out.
This line of thought naturally brings into the
discussion the concept of modularization. Since the only explicit
boundaries between network nodes are the layers, any conceptualization like the
one described above will have to be based on clusters of the feature vectors
propagated between layers. In the research plan described above we made no
reference to how intermediate concepts are used by subsequent
layers, and the operator had to exclude concepts on the basis of their
being potentially used in a way that is counter to their
intuition about the task.
It would be an obvious advantage to be able to
communicate how concepts are actually used. Note, however, that in non-trivial
applications we expect large numbers of concepts that all contribute to the
next layer without necessarily having some weights stand out as particularly
prominent. To be able to meaningfully communicate how concepts from different
layer interact, we need to modularize the trained network into human-biteable
chunks so that the operator can inspect them one by one without having to
retain in working memory the complete set dependencies from one layer to the
next. Naturally, as argued above, this modularization would ideally be
posterior to training rather than am imposed prior.
Notwithstanding an imminent breakthrough in clustering
methods, this will not be possible in the general case. A reasonable compromise
can be imposing a defeasible prior modularization. To make
this more concrete, suppose a prior conceptualization, broken down into layers
(of abstraction and of the network) and imposing mutual exclusiveness or other
axioms between the concepts in each layer. The network would have to either
refine the concept definitions or decide that a re-organization of the concepts
of a layers would improve the overall result in a way analogous to how
mid-vision feedback simultaneously uses and shapes the context represented in
intermediate layers. Neurosymbolic AI [25] and automatic differentiation [3] can make it possible to define and train more complex and more dynamic
architectures, where well-defined modules interact in ways that are predefined
but can change in the face of empirical evidence. These approaches assume a
logical (in Neurosymbolic AI) or programmatic (in automatic differentiation)
representation as the structural backbone of the network; both approaches
propose methods for back-propagating loss through the complete network,
exploiting the usual end-to-end supervision and avoiding detailed supervision.
As the strucure of the network can be inspected and
edited, the operator can, for example, remove the dependency between two
concepts from different layers instead of completely banning the concept in the
earlier layer. To give a concrete example, consider the infamous example of
classifying dogs vs. wolves based on the green or snowy background rather than
on the actual animal [23]. Banning all concepts characterizing backgrounds does not require an
understand of how concepts interact, but would render the network task-specific
and not amenable to refinement to other tasks. Banning connections from
background concepts to animal concepts would be a better way to communicate
with a network, as it endows it with a more accurate and more generally useful
piece of world knowledge.
We propose the dog vs wolf scenario, and many similar
famous misclassfications from the deep vision literature and lore, as a good
test case for research in neurosymbolic AI. Specifically, we propose that the
test case is that a human operator is able to fix a misclassification by
editing the logical part of the network and that an expert operator will be
able to see what to edit without unforeseeable and catastrophic side-effects,
just like an exper programmer can debug and correct a program with minimal
suffering from long-distance side-effects.
Acknowledgments
This research
was (co-)funded by the European Union under GA no. 101135782 (MANOLO
project). Views and opinions expressed are however those of the authors only
and do not necessarily reflect those of the European Union or CNECT. Neither
the European Union nor CNECT can be held responsible for them.
References
[1]
Anurag
Arnab, Ondrej Miksik, and Philip H.S. Torr. 2018. On the Robustness of
Semantic Segmentation Models to Adversarial Attacks. In Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018).
Go to
Citation
Crossref
Google Scholar
[2]
Andrei
Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan
Gutfreund, Josh Tenenbaum, and Boris Katz. 2019. ObjectNet: A large-scale
bias-controlled dataset for pushing the limits of object recognition models.
In Advances in Neural Information Processing Systems 32: NeurIPS 2019.
Go to
Citation
Google Scholar
[3]
Atılım Güne
s Baydin, Barak A. Pearlmutter, Alexey Andreyevich Radul, and
Jeffrey Mark Siskind. 2018. Automatic Differentiation in Machine Learning:
A Survey. Journal of Machine Learning Research 18 (April
2018).
Go to
Citation
Google Scholar
[4]
Yoshua
Bengio and Olivier Delalleau. 2011. On the Expressive Power of Deep
Architectures. In Proc. 22nd International Conference on Algorithmic
Learning Theory (ALT 2011), Espoo, Finland, 5-7 October 2011(LNAI,
Vol. 6925). Springer.
Go to
Citation
Google Scholar
[5]
Yoshua
Bengio and Yann LeCun. 2007. Scaling learning algorithms towards AI. In Large-Scale
Kernel Machines. The MIT Press.
Go to
Citation
Crossref
Google Scholar
[6]
Eoin
Brophy, Zhengwei Wang, Qi She, and Tomás Ward. 2023. Generative Adversarial Networks
in Time Series: A Systematic Literature Review. Comput. Surveys 55,
10 (Feb. 2023).
Go to
Citation
Digital Library
Google Scholar
[7]
Zhi Chen,
Yijie Bei, and Cynthia Rudin. 2020. Concept whitening for interpretable image
recognition. Nature Machine Intelligence 2 (Dec. 2020).
Crossref
Google Scholar
[8]
Alexey
Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,
Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain
Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words:
Transformers for Image Recognition at Scale. In Proc. ICLR 2021,
Vienna, Austria. arXiv:https://arXiv.org/abs/2010.11929v2
[cs.CV].
Go to
Citation
Google Scholar
[9]
Narmin
Ghaffari Laleh, Daniel Truhn, Gregory Patrick Veldhuizen, Tianyu Han,
Marko van Treeck, Roman D. Buelow, Rupert Langer, Bastian Dislich, Peter
Boor, Volkmar Schulz, and Jakob Nikolas Kather. 2022. Adversarial attacks
and adversarial robustness in computational pathology. Nature Comm. 13
(2022).
Go to
Citation
Google Scholar
[10]
Ke He,
Dan Dongseong Kim, and Muhammad Rizwan Asghar. 2023. Adversarial
Machine Learning for Network Intrusion Detection Systems: A Comprehensive
Survey. IEEE Communications Surveys and Tutorials 25, 1
(2023).
Go to
Citation
Digital Library
Google Scholar
[11]
Kaiming
He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for
image recognition. In Conference on Computer Vision and Pattern
Recognition (CVPR 2016), Las Vegas, NV, USA.
Go to
Citation
Crossref
Google Scholar
[12]
Andreas
Holzinger, Anna Saranti, Christoph Molnar, Przemyslaw Biecek, and Wojciech
Samek. 2022. Explainable AI Methods - A Brief Overview. In Revised and
Extended Papers of the International Workshop Beyond Explainable AI (xxAI),
held at ICML 2020, Vienna, Austria, 18 July 2020(LNAI,
Vol. 13200). Springer.
Go to
Citation
Digital Library
Google Scholar
[13]
Mir Riyanul
Islam, Mobyen Uddin Ahmed, Shaibal Barua, and Shahina Begum. 2022. A
Systematic Review of Explainable Artificial Intelligence in Terms of Different
Application Domains and Tasks. Applied Sciences 12, 3 (Jan.
2022).
Go to
Citation
Crossref
Google Scholar
[14]
Shuai Jia,
Chao Ma, Taiping Yao, Bangjie Yin, Shouhong Ding, and Xiaokang Yang. 2022.
Exploring Frequency Adversarial Attacks for Face Forgery Detection. In Proceedings
IEEE/CVF CVPR 2022.
Go to
Citation
Crossref
Google Scholar
[15]
Henry
Kautz. 2022. The Third AI Summer: AAAI Robert S. Engelmore Memorial
Lecture. AI Magazine 43, 1 (2022).
Go to
Citation
Digital Library
Google Scholar
[16]
Alex
Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet
Classification with Deep Convolutional Neural Networks. In Advances in
Neural Information Processing Systems.
Go to
Citation
Digital Library
Google Scholar
[17]
Chenxi
Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li
Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. 2018. Progressive
neural architecture search. In Proceedings of ECCV 2018.
Go to
Citation
Digital Library
Google Scholar
[18]
Michael
Maynord, Eadom Dessalene, Cornelia Fernmüller, and Yiannis Aloimonos. 2023.
Mid-Vision Feedback. In Accpeted to the Eleventh International
Conference on Learning Representations (ICLR 2023), Kigali, Rwanda, May 2023.
Google Scholar
[19]
Dang Minh,
H. Xiang Wang, Y. Fen Li, and Tan N. Nguyen. 2021. Explainable
artificial intelligence: A comprehensive review. Artificial
Intelligence Review 55 (Nov. 2021).
Go to
Citation
Digital Library
Google Scholar
[20]
Judea
Pearl. 2019. The Limitations of Opaque Learning Machines. In Possible
Minds: Twenty-Five Ways of Looking at AI, John Brockman (Ed.). Penguin
Press.
Go to
Citation
Google Scholar
[21]
Pekka
Ala-Pietilä et al.2019. Ethics Guidelines for Trustworthy AI.
Technical Report. The High-Level Expert Group on AI (AI HLEG), set up by the
European Commission. https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai
Go to
Citation
Google Scholar
[22]
Joseph
Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 2016. You Only Look
Once: Unified, Real-Time Object Detection. In Proceedings of CVPR 2016. https://arxiv.org/abs/1506.02640v5
Go to
Citation
Crossref
Google Scholar
[23]
Marco Tulio
Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. Why Should I Trust You?
Explaining the Predictions of Any Classifier. arXiv:https://arXiv.org/abs/1602.04938 (2016).
Go to
Citation
Google Scholar
[24]
Cynthia
Rudin. 2019. Stop explaining black box machine learning models for high stakes
decisions and use interpretable models instead. Nature Machine
Intelligence 1 (May 2019).
Go to
Citation
Crossref
Google Scholar
[25]
Md Kamruzzaman
Saker, Lu Zhou, Aaron Eberhart, and Pascal Hitzler. 2022. Neuro-Symbolic AI:
Current Trends. AI Communications 34, 3 (2022).
Go to
Citation
Google Scholar
[26]
Karen
Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for
large-scale image recognition. arXiv:https://arXiv.org/abs/1409.1556 (2014).
Go to Citation
Google Scholar
[27]
Christian
Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A. Alemi. 2017.
Inception-v4, inception-resnet and the impact of residual connections on
learning. In Proc. Thirty-First AAAI Conference on Artificial
Intelligence.
Go to
Citation
Crossref
Google Scholar
[28]
Zijie J.
Wang, Alex Kale, Harsha Nori, Peter Stella, Mark E. Nunnally,
Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, and
Rich Caruana. 2022. Interpretability, Then What? Editing Machine Learning
Models to Reflect Human Knowledge and Values. In Proceedings KDD 2022.
Go to
Citation
Digital Library
Google Scholar
[29]
Zhipeng
Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu Shanghai, Tom Goldstein, and
Yu-Gang Jiang. 2022. Towards Transferable Adversarial Attacks on Vision
Transformers. In Proceedings of the AAAI Conference on Artificial
Intelligence.