Parece que estamos atravesando una tercera revolución en la inteligencia artificial y avanza sin demasiada advertencia. Parte de la razón es que es difícil saber con certeza hacia dónde se dirige la revolución.
La primera revolución de la inteligencia artificial tuvo lugar al principio, cuando quedó claro que las computadoras podían hacer cosas más allá de la suma de los cheques de pago. Rápidamente descubrió una serie de técnicas que incluyen lógica simbólica, investigación y redes neuronales. El problema con las redes neuronales era que eran difíciles de entrenar y no funcionaban muy bien, pero proporcionaban un enfoque general, incluso si no funcionaba.
La segunda revolución es lo que tendemos a resumir como Deep Learning. Las mejoras en el hardware y, lo que es más importante, en los datos de entrenamiento, han hecho posible entrenar redes profundas con una gran cantidad de datos. La gran sorpresa fue que funcionaron. Tuvimos una muy buena solución como parte de la primera revolución, pero no lo sabíamos. Como dijo una vez Geoffrey Hinton, «siempre tuvimos la solución». Obviamente, ha habido muchos desarrollos que han impulsado el tema, pero una vez que se demuestra que las redes neuronales profundas pueden aprender cosas difíciles, son bastante mundanas: redes convolucionales, redes generativas, etc.
El gran problema, que apenas se discutió durante la revolución del aprendizaje profundo, fue el hecho de que las secuencias y modelos basados en el tiempo eran, y son, un problema. Para gestionar estos datos se requirió una red neuronal recurrente que utiliza feedback y que es muy difícil de entrenar. La tercera revolución es encontrar formas de evitar la necesidad de redes recurrentes y así llegamos al descubrimiento del transformador y la atención. Usando esta idea podemos crear redes neuronales profundas que pueden dominar las asociaciones de tiempo y así podemos implementar sistemas de lenguaje natural.
La tercera revolución se caracteriza por sistemas como GP-3 que dominan tan bien las tareas del lenguaje que pueden responder preguntas, resumir textos, traducir idiomas y escribir ficción. Las redes de este tipo son enormes. Hacen que las webs profundas anteriores parezcan superficiales. La velocidad a la que están creciendo en tamaño también es impresionante. La tercera revolución, como la segunda, está impulsada por mejoras de hardware y está impulsando mejoras de hardware. La primera red de este tipo, ELMo, tenía 94 millones de parámetros. BERT tenía 340 millones, GPT-2 tenía 1.5 mil millones de parámetros y en solo un año esto saltó a los 175 mil millones de parámetros de GPT-3. Ahora, otro año después, Microsoft ha anunciado Megatron-Turing NLG, ¡que tiene 530 mil millones de parámetros!
El equipo de Microsoft Turing creó un gráfico que indica qué tan rápido fue el desarrollo:
¡Esto es extraordinario!
Como comenta el equipo de Turing:
«Vivimos en una época en la que los avances en inteligencia artificial superan con creces la ley de Moore. Seguimos viendo más potencia informática disponible con las nuevas generaciones de GPU, interconectadas a la velocidad de la luz. Al mismo tiempo, seguimos viendo la hiperescala de modelos de IA líderes con mejor rendimiento, aparentemente sin un final a la vista «.
Estos modelos tan grandes solo se pueden entrenar con grandes cantidades de datos, por lo que el lenguaje, que está en toda la web, es un gran campo de entrenamiento.
No hace falta decir que la nueva red funciona mejor que los ejemplos anteriores utilizando el mismo enfoque. La importancia, sin embargo, es cómo un modelo tan simple parece ser capaz de capturar gran parte de la estructura del mundo a partir de la estructura misma, la estructura estadística, del lenguaje.
Algunos opinan que este es un paso vital en el camino hacia la IA general; consulte ¿Problemas en el corazón de la IA? Otros dicen que todo el enfoque es tonto y vacío. Parece que la red está respondiendo preguntas sin entender nada. Parece que no usa más que las estadísticas del idioma. Esto es cierto, pero 530 mil millones de parámetros para codificar un modelo estadístico son algo diferente y de una clase diferente.
Quizás el cerebro humano hace poco más, y nuestra fe en nuestra inteligencia y comprensión racionales es tan efímera y no más que las estadísticas del mundo codificadas en las estadísticas del lenguaje.