Ramón y Cajal es conocido, sobre todo, por sus contribuciones a la neurociencia y la comprensión del cerebro como una red de neuronas interconectadas que intercambian información a través de impulsos eléctricos. Sin embargo, menos conocida es la conexión entre los descubrimientos de Ramón y Cajal que sentaron las bases de la neurociencia y el comienzo y desarrollo de la Inteligencia Artificial.

Fueron los investigadores Estadounidenses (McCulloch & Pitts; 1943) los que basados en el conocimiento del funcionamiento biológico de las neuronas y la interconexión entre ellas propusieron el primer modelo de neurona artificial. Utilizando la idea de que una neurona biológica recibe impulsos eléctricos procedentes de otras neuronas a través de conexiones llamadas sinapsis y que dichos impulsos se modulan según unos pesos que pueden modificarse durante el aprendizaje, se formuló el primer modelo matemático que constituyó la base de las redes neuronales artificiales modernas. Obviamente, dicha neurona era muy sencilla: la salida era binaria y no pretendía modelar el funcionamiento de una neurona biológica, que resulta, incluso hoy, un problema muy complejo de abordar. Esta primera neurona supuso además un hito a la hora de abordar problemas bajo un paradigma conocido como “Machine Learning”. Así, de la misma manera que el cerebro aprende a identificar, por ej., imágenes de caracteres manuscritos a través de un aprendizaje con un subconjunto de ejemplos, los algoritmos matemáticos de la neurona artificial eran capaces de modificar los pesos como respuesta a un conjunto de ejemplos de entrada. Más aún, la neurona era capaz de generalizar el aprendizaje para resolver problemas parecidos a los que se habían utilizado durante la fase de entrenamiento.

El desarrollo de las redes neuronales sufrió pronto un parón cuando se mostró que la neurona de McCulloch & Pitts no era capaz de resolver problemas que resultan triviales para un humano, incluso para modelos matemáticos clásicos. Nuevamente, las observaciones derivadas del funcionamiento de las neuronas biológicas aportaron ideas para superar este problema. Muchos sistemas cerebrales, como el de visión, utilizan redes dispuestas en varias capas de neuronas. La función de las capas intermedias es extraer características generales de los datos para facilitar la posterior predicción en la última capa. De esta manera, aparecieron las primeras redes multicapa como el perceptrón o la red RBF que eran capaces de resolver problemas más complejos que los modelos matemáticos clásicos aprendiendo a través de ejemplos. En la misma línea, la observación de cómo el cerebro humano aprende a controlar sistemas complejos propició la aparición de diferentes arquitecturas de redes neuronales. Así, se observó que el ser humano es capaz de controlar sistemas complejos en la industria o de conducir un coche aprendiendo, a través de ejemplos, reglas denominadas “difusas”. Controlamos la velocidad de un vehículo utilizando reglas tan sencillas como: “Si la Distancia con el siguiente vehículo es Pequeña y la Velocidad de mi vehículo es Grande, entonces la Fuerza sobre el freno debe ser Elevada”. Estas reglas que modelan la incertidumbre mediante las variables difusas Distancia, Velocidad y Fuerza, son muy eficientes a la hora de controlar sistemas complejos de modelar matemáticamente. Este tipo de observaciones dio lugar a lo que se denominó sistemas neurodifusos, es decir, redes neuronales capaces de aprender automáticamente, a través de ejemplos, reglas que modelan la incertidumbre de manera similar a como lo hace el cerebro humano, utilizando el formalismo matemático de los sistemas difusos. Existen muchos modelos neurodifusos pero, merece la pena destacar la línea de investigación sobre los modelos Fuzzy ARTMAP iniciada por (Carpenter & Grossberg; 1992) que toman numerosas ideas del funcionamiento de las redes neuronales cerebrales para su implementación matemática. Como aspecto curioso, estas redes utilizan la denominada “Teoría de la resonancia adaptativa”, cuyas siglas en inglés son “ART”, que resuelve el dilema de diseñar algoritmos de aprendizaje dotados de plasticidad sin perder la estabilidad. Esta teoría ha sido inspirada en el funcionamiento de las neuronas biológicas y permite aprender patrones novedosos sin olvidar lo memorizado anteriormente. Algunas redes neuronales, como el perceptrón multicapa, no poseen dicha propiedad. Además, muchos autores han comentado en la literatura que este tipo de red funciona como una caja negra, no pudiendo ser interpretadas sus decisiones por expertos humanos. Esta deficiencia fué resuelta por los modelos Fuzzy ARTMAP, de los cuales se han propuesto multitud de arquitecturas para resolver problemas de clasificación o predicción. Finalmente, la observación del cerebro humano ha mostrado que existen fundamentalmente dos tipos de aprendizaje: el supervisado que requiere de un experto humano que proporcione la salida óptima de la red neuronal para un subconjunto de ejemplos de entrenamiento y el no supervisado en que las neuronas extraen patrones o correlaciones entre los objetos sin necesidad de supervisión externa. Basado en esa observación, surgieron los mapas autoorganizativos (SOM) propuestos por (Kohonen; 1995) que, sin necesidad de supervisión externa, son capaces de visualizar relaciones y grupos para los datos de entrada. Así, en un problema de análisis de documentos textuales, pueden construir mapas que nos ayuden a visualizar las relaciones semánticas entre documentos e incluso los grupos temáticos existentes.

Como hemos visto, a medida que avanzaba la neurociencia y los recursos computacionales se propusieron una gran variedad de arquitecturas neuronales. Sin embargo, problemas como los de visión artificial, que el cerebro humano es capaz de resolver de manera sencilla y eficiente, continuaban siendo un desafío para dichas redes. La observación del sistema neuronal asociado a la vista mostró la solución. Dichas redes neuronales se organizan en múltiples capas, las primeras extraen características de los objetos como el color, la textura etc. y las sucesivas capas van extrayendo progresivamente características cada vez más generales que permiten posteriormente categorizar y extraer relaciones entre los objetos. Así se han propuesto numerosas arquitecturas denominadas “Deep Learning” para visión y otros campos, como la red convolucional, la LSTM etc. que han permitido mejorar los índices de error significativamente llegando incluso a la precisión del ser humano. Dichos modelos han sido desarrollados frecuentemente por investigadores como (LeCun, Bengio & Hinton; 2015) que han reconocido inspirarse en la ciencia de Ramón y Cajal.

Los modelos anteriores son capaces de resolver problemas complejos, siempre que el conjunto de entrenamiento sea suficientemente amplio, pero la generación de conocimiento novedoso continúa siendo un desafío. Es por ello que ha surgido una nueva línea de investigación denominada Inteligencia Artificial generativa (Jovanović & Campbell; 2022), en la que está basada por ej. ChatGPT, de la que se espera un salto cualitativo en la Inteligencia Artificial.

**Manuel Martín-Merino Acera **Catedrático de Inteligencia Artificial en la Facultad de Informática Universidad Pontificia de Salamanca

Referencias

  • G. A. Carpenter, S. Grossberg, N. Markuzon, J. H. Reynolds & D. B. Rosen, “Fuzzy ARTMAP: A neural network architecture for incremental supervised learning of analog multidimensional maps”, IEEE Transactions on Neural Networks, vol. 3, no. 5, pp. 698-713, Sept. 1992.

  • M. Jovanović & M. Campbell, “Generative Artificial Intelligence: Trends and Prospects,” in Computer, vol. 55, no. 10, pp. 107-112, Oct. 2022.

  • Teuvo Kohonen, Self-Organizing Maps. Springer Series in Information Sciences, Springer, 30, 1995.

  • Y. LeCun, Y. Bengio & G. Hinton, Deep learning. Nature 521, 436–444, 2015.

  • W. S. McCulloch & W. Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology, 5(4):115–133, 1943.