Meta, anteriormente conocida como Facebook, anunció que sus investigadores diseñaron y construyeron un AI Research SuperCluster (RSC) que creen que se encuentra entre las supercomputadoras de IA más rápidas que se ejecutan hoy y será la supercomputadora de IA más rápida del mundo cuando, a mediados de 2022 , está totalmente construido.
Al anunciar las nuevas supercomputadoras, Kevin Lee, gerente de programa técnico, y Shubho Sengupta, ingeniero de software en Meta, dijeron que los investigadores de Meta ya comenzaron a usar RSC para entrenar modelos grandes en procesamiento de lenguaje natural (NLP) y en visión artificial para investigación. con el objetivo de modelos de entrenamiento de un día con billones de parámetros.
La necesidad de la supercomputadora está impulsada por la creación de modelos cada vez más grandes, complejos y adaptables que se entrenan en áreas como la vista, el habla, el lenguaje o para casos de uso crítico, como la identificación de contenido malicioso.
Al igual que otras supercomputadoras de inteligencia artificial, la máquina Meta se construyó combinando múltiples GPU en nodos de cómputo, que luego se conectan mediante una estructura de red de alto rendimiento para permitir una comunicación rápida entre esas GPU. Actualmente, RSC incluye un total de 760 sistemas NVIDIA DGX A100 como nodos de cómputo, para un total de 6080 GPU. El nivel de almacenamiento de RSC tiene 175 petabytes de Pure Storage FlashArray, 46 petabytes de memoria caché en los sistemas Penguin Computing Altus y 10 petabytes de Pure Storage FlashBlade.
Los investigadores dicen que los primeros puntos de referencia en RSC, en comparación con la infraestructura de investigación y producción heredada de Meta, muestran que ejecuta flujos de trabajo de visión por computadora hasta 20 veces más rápido, NVIDIA Collective Communication Library (NCCL) funciona más de nueve veces más rápido y entrena en modelos NLP a gran escala tres veces más rápido. Esto significa que un modelo con decenas de miles de millones de parámetros puede completar el entrenamiento en tres semanas, en comparación con las nueve semanas anteriores.
Una pregunta que surge de la necesidad de datos para entrenar un sistema de este tipo es que los modelos deben enseñarse utilizando datos del mundo real de los sistemas de producción de Meta. Esto plantea cuestiones de privacidad y seguridad, que según los investigadores se resuelven por el hecho de que RSC está aislado de Internet en general, sin conexiones entrantes o salientes directas, y el tráfico solo puede fluir desde los centros de datos de producción de Meta.
Ellos dicen:
«Para cumplir con nuestros requisitos de privacidad y seguridad, toda la ruta de datos desde nuestros sistemas de almacenamiento hasta las GPU está encriptada de extremo a extremo».
Los datos también se anonimizan y se descifran solo en un punto final.