¡Una aparición de modelo mundial de LeCun! Meta conmocionó el lanzamiento del primer modelo "humanoide", que completa la mitad de una imagen después de comprender el mundo, y todos esperan un aprendizaje autosupervisado.

2023-06-14 06:21:49

**Fuente:**Xinzhiyuan

**Introducción:**El modelo mundial de LeCun finalmente está aquí, se puede decir que es lo que todos esperan. Ahora que el gran modelo ha aprendido a entender el mundo y razonar como un ser humano, ¿no está AGI muy lejos?

Durante mucho tiempo, la IA ideal de LeCun siempre ha sido la IA que lleva al nivel humano, por eso propuso el concepto de "modelo mundial".

Recientemente, en un discurso público, LeCun volvió a criticar el modelo grande de GPT: el modelo grande de generación autorregresiva basado en la probabilidad no puede resolver el problema de las alucinaciones en absoluto. Incluso afirma directamente que el modelo GPT no sobrevivirá 5 años.

¡Hoy, LeCun finalmente está un paso más cerca de su sueño!

Meta shock lanzó un modelo de inteligencia artificial I-JEPA "similar a un humano", que puede analizar y completar las imágenes que faltan con mayor precisión que los modelos existentes.

Dirección en papel:

En pocas palabras: cuando I-JEPA completa las piezas que faltan, ¡utiliza conocimientos previos sobre el mundo! En lugar de solo mirar los píxeles cercanos como lo hacen otros modelos.

Ha pasado más de un año desde que se propuso el concepto de "modelo mundial", y LeCun está a punto de realizar su propio mar de estrellas.

Hoy, el código de entrenamiento y los modelos son de código abierto. El documento se presentará en CVPR 2023 la próxima semana.

El modelo mundial de LeCun está aquí

Incluso los sistemas de inteligencia artificial más avanzados de la actualidad no han podido superar algunas limitaciones clave.

Para romper esta capa de grilletes, el científico jefe de inteligencia artificial de Meta, Yann LeCun, propuso una nueva arquitectura.

Su visión es crear una máquina que pueda aprender un modelo interno de cómo funciona el mundo, para que pueda aprender más rápidamente, planificar tareas complejas y responder a situaciones nuevas y desconocidas en cualquier momento.

El modelo I-JEPA del marco de predicción integrado conjunto de imágenes lanzado hoy por Meta es el primer modelo de IA en la historia basado en una parte clave de la visión del modelo mundial de LeCun.

I-JEPA aprende creando un modelo interno del mundo externo. En el proceso de completar imágenes, compara representaciones abstractas de las imágenes, en lugar de comparar los píxeles mismos.

I-JEPA ha demostrado un gran rendimiento en múltiples tareas de visión por computadora y es mucho más eficiente desde el punto de vista computacional que otros modelos CV ampliamente utilizados.

Evaluación lineal de ImageNet: el método I-JEPA no utiliza ningún aumento de datos visuales durante el entrenamiento previo para aprender representaciones de imágenes semánticas, utilizando menos cálculos que otros métodos

Las representaciones aprendidas por I-JEPA se pueden usar en muchas aplicaciones diferentes sin un ajuste fino extenso.

Por ejemplo, los investigadores utilizaron 16 GPU A100 en 72 horas para entrenar un modelo de Transformer visual con 632 millones de parámetros.

En la tarea de clasificación de tiro bajo en ImageNet, logra hasta 12 ejemplos etiquetados por clase.

Otros métodos generalmente requieren de 2 a 10 veces más horas de GPU y tienen tasas de error más altas cuando se entrenan con la misma cantidad de datos.

Adquirir sentido común a través del aprendizaje autosupervisado

En general, los humanos pueden aprender una gran cantidad de conocimientos previos sobre el mundo simplemente mediante la observación pasiva.

Especulativamente, parece que este tipo de información de sentido común es la clave para permitir un comportamiento inteligente, como adquirir muestras válidas de nuevos conceptos, fundamentos y planes.

Modelar el aprendizaje de conceptos como aprender una lectura lineal

El trabajo de Meta en I-JEPA (y más generalmente el modelo JEPA de Arquitectura de Predicción de Incrustación Conjunta) se basa en este hecho.

Lo que los investigadores han intentado es diseñar un algoritmo de aprendizaje que capture el conocimiento previo de sentido común sobre el mundo y luego lo codifique en una representación digital a la que pueda acceder el algoritmo.

Para ser lo suficientemente eficientes, los sistemas deben aprender estas representaciones de forma autosupervisada, es decir, directamente a partir de datos no etiquetados, como imágenes o sonidos, en lugar de conjuntos de datos etiquetados ensamblados manualmente.

En un nivel superior, JEPA tiene como objetivo predecir representaciones de partes de una entrada en función de representaciones de otras partes de la misma entrada (imagen o texto).

Debido a que no implica colapsar múltiples vistas/representaciones aumentadas de una imagen en un solo punto, JEPA es muy prometedor para evitar sesgos y problemas que surgen en los métodos ampliamente utilizados (es decir, el entrenamiento previo basado en la invariancia).

Un enfoque de integración conjunta evita el colapso de la representación

Al mismo tiempo, al predecir representaciones a un nivel muy abstracto, en lugar de predecir directamente los valores de píxeles, JEPA promete poder aprender directamente representaciones útiles mientras evita las limitaciones de los métodos generativos.

Por el contrario, los modelos generativos generales aprenden eliminando o distorsionando partes del modelo de entrada.

Por ejemplo, borre parte de una foto u oculte ciertas palabras en un párrafo de texto y luego intente predecir píxeles o palabras corruptas o faltantes.

Pero una deficiencia importante de este enfoque es que, si bien el mundo en sí mismo es impredecible, el modelo intenta completar cada pieza de información faltante.

Como resultado, tales enfoques pueden cometer errores que los humanos nunca cometerían, porque se enfocan demasiado en detalles irrelevantes en lugar de capturar conceptos predecibles de alto nivel.

Un ejemplo bien conocido es que los modelos generativos tienen dificultad para generar las manos correctas.

En la arquitectura general del aprendizaje autosupervisado, el sistema aprende a capturar la relación entre diferentes entradas.

Su objetivo es asignar energías altas a entradas incompatibles y energías bajas a entradas compatibles.

Arquitecturas comunes para el aprendizaje autosupervisado

La diferencia entre estas tres estructuras es-

(a) Una arquitectura de incrustación conjunta (invariante) aprende a generar incrustaciones similares para entradas compatibles x, y e incrustaciones diferentes para entradas incompatibles.

(b) Una arquitectura generativa aprende a reconstruir una señal y directamente a partir de una señal compatible x, utilizando una red decodificadora condicionada a una variable adicional z (posiblemente una variable latente) para facilitar la reconstrucción.

(c) La arquitectura de predicción de incrustación conjunta aprende a predecir la incrustación de la señal y de la señal compatible x, utilizando una red de predicción condicionada a una variable adicional z (posiblemente una variable latente) para facilitar la predicción.

arquitectura de predicción de incrustación conjunta

El principio detrás de I-JEPA es predecir la información faltante a través de una representación abstracta más parecida a la comprensión humana.

Para guiar a I-JEPA a generar representaciones semánticas, uno de los diseños centrales es la estrategia de enmascaramiento de bloques múltiples.

Específicamente, el equipo demostró la importancia de predecir grandes fragmentos que contienen información semántica. Estos fragmentos tienen un tamaño suficiente para cubrir características semánticas importantes.

La ventaja de esta estrategia es que reduce los detalles innecesarios y proporciona un mayor nivel de comprensión semántica.

Al centrarse en grandes porciones de información semántica, el modelo puede capturar mejor conceptos importantes en imágenes o textos, lo que lleva a capacidades predictivas más sólidas.

La arquitectura de predicción de incrustación conjunta basada en imágenes (I-JEPA) utiliza un solo bloque contextual para predecir representaciones de la misma imagen

Entre ellos, el codificador de contexto es un Transformador visual (ViT), que solo procesa parches de contexto visibles.

El predictor es un ViT estrecho que toma la salida del codificador de contexto y predice la representación del bloque objetivo en función del token de posición del objetivo.

La representación de destino corresponde a la salida del codificador de destino, cuyas ponderaciones se actualizan en cada iteración mediante una media móvil exponencial de las ponderaciones del codificador de contexto.

En I-JEPA, el predictor puede verse como un modelo mundial primitivo (y restringido) capaz de explotar información de contexto conocida para inferir el contenido de regiones desconocidas.

Esta capacidad permite que el modelo razone sobre imágenes estáticas, construyendo una comprensión de la incertidumbre espacial en las imágenes.

A diferencia de los métodos que solo se enfocan en detalles a nivel de píxel, I-JEPA puede predecir información semántica de alto nivel de regiones invisibles, para capturar mejor el contenido semántico de las imágenes.

El proceso por el cual un predictor aprende a modelar la semántica del mundo.

Para cada imagen, las partes fuera del cuadro azul se codifican y se proporcionan al predictor como contexto. El predictor, por otro lado, genera una representación que representa lo que se espera dentro del cuadro azul.

Para comprender lo que captura el modelo, el equipo entrenó un decodificador estocástico para mapear las representaciones predichas de I-JEPA de nuevo al espacio de píxeles, mostrando la salida del modelo al hacer predicciones dentro del cuadro azul.

Claramente, el predictor puede identificar la información semántica que debe completarse (parte superior de la cabeza de un perro, pata de pájaro, pata de lobo, el otro lado de un edificio).

Dada una imagen, muestree aleatoriamente 4 parches de destino, muestree aleatoriamente un parche de contexto de escala de rango y elimine cualquier parche de destino superpuesto. Bajo esta estrategia, el bloque de destino es relativamente semántico y el bloque de contexto tiene una gran cantidad de información, pero es muy escasa, por lo que la eficiencia de procesamiento es alta.

En resumen, I-JEPA puede aprender representaciones de alto nivel de partes de objetos sin descartar su información de ubicación local en la imagen.

Mayor eficiencia, mayor rendimiento

En pre-entrenamiento, el cálculo de I-JEPA es más eficiente.

En primer lugar, no necesita aplicar un aumento de datos más intensivo desde el punto de vista computacional para generar múltiples vistas, por lo que no genera gastos generales adicionales.

En segundo lugar, el codificador de destino solo necesita procesar una vista de la imagen y el codificador de contexto solo necesita procesar el bloque de contexto.

Los experimentos demuestran que I-JEPA es capaz de aprender poderosas representaciones semánticas listas para usar sin aumento de vista artificial.

Además, I-JEPA también supera a los métodos de reconstrucción de píxeles y reconstrucción de tokens en la detección lineal ImageNet-1K y la evaluación semisupervisada.

Rendimiento de evaluación lineal de referencia en ImageNet-1k como una función de las horas de GPU durante el preentrenamiento

En tareas semánticas, I-JEPA supera a los métodos previos de capacitación que se basan en datos artificiales para el aumento.

En comparación con estos métodos, I-JEPA logra un mejor rendimiento en tareas de visión de bajo nivel, como el conteo de objetos y la predicción de profundidad.

Al usar un modelo de sesgo inductivo más simple y flexible, I-JEPA se puede usar en una gama más amplia de tareas.

Precisión de clasificación de tiro bajo: evaluación semisupervisada en ImageNet-1k con 1% de etiquetas (alrededor de 12 imágenes etiquetadas por clase)

IA lleva la inteligencia humana un paso más allá

I-JEPA demuestra el potencial de la arquitectura para aprender representaciones de imágenes listas para usar sin asistencia adicional del conocimiento hecho a mano.

Avanzar en JEPA para aprender modelos mundiales más generales a partir de modalidades más ricas sería un trabajo particularmente gratificante.

Por ejemplo, a partir de un contexto corto, haga predicciones espaciales y temporales de largo alcance en videos y condicione estas predicciones en función de señales de audio o texto.

Visualización de la representación del predictor I-JEPA: la primera columna contiene la imagen original, la segunda columna contiene la imagen de contexto y los cuadros delimitadores verdes contienen muestras del modelo generativo decodificado por la salida del predictor. El predictor captura correctamente la incertidumbre posicional, produciendo partes de objetos de alto nivel con la pose correcta, descartando detalles precisos de bajo nivel e información de fondo.

El equipo dice que espera ampliar el enfoque de JEPA a otros dominios, como datos emparejados de imagen y texto y datos de video.

En el futuro, los modelos JEPA pueden tener interesantes aplicaciones en tareas como la comprensión de videos. Y será un paso importante hacia la aplicación y extensión de métodos autosupervisados para aprender modelos mundiales.

Modelo preentrenado

### Entrenamiento de una sola GPU

En una configuración de GPU única, la implementación comienza en main.py.

Por ejemplo, para ejecutar el entrenamiento previo de I-JEPA en las GPU 0, 1 y 2 en su máquina local usando la configuración configs/in1k_vith14_ep300.yaml, ingrese el siguiente comando:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

NOTA: La configuración ViT-H/14 debe ejecutarse en 16 tarjetas gráficas A100 80G con un tamaño de lote efectivo de 2048 para reproducir los resultados.

Entrenamiento de múltiples GPU

En una configuración de múltiples GPU, la implementación comienza en main_distributed.py, lo que permite especificar detalles sobre el entrenamiento distribuido además de analizar los archivos de configuración.

Para la capacitación distribuida, se requiere la popular herramienta de envío de código abierto, con un ejemplo de un clúster SLURM.

Por ejemplo, para entrenar previamente en 16 tarjetas gráficas A100 80G usando la configuración del experimento de entrenamiento previo especificada en configs/in1k_vith14_ep300.yaml, ingrese el siguiente comando:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000

Reseñas

Los internautas expresaron su agradecimiento por este nuevo trabajo liderado por LeCun.

Un trabajo realmente innovador, impresionado. ¡El sucesor del modelo autorregresivo está aquí!

Creo que las arquitecturas integradas federadas son el futuro de la IA, no generativas. Pero solo tengo curiosidad, ¿por qué no profundizamos en la multimodalidad (como ImageBind, no solo pares de texto e imagen) y reemplazamos los codificadores VIT con perceptrones como codificadores?

Trabajo muy limpio. Según tengo entendido, es similar a un codificador automático enmascarado, pero pierde funciones cuando se define en el espacio latente, no en el espacio de entrada/píxel. Sin embargo, si quiero entenderlo en detalle, todavía necesito más detalles.

Mi cerebro solo puede entender el 10 % del documento, pero si I-JEPA realmente puede crear la imagen de destino en la Figura 3, será increíble y, lo que es más importante: ¡está relacionado con un MMORPG generado por IA!

Este proyecto está a punto de ser de código abierto y los internautas también expresaron su agradecimiento por la contribución de Meta a la comunidad de código abierto.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
29k Popularidad
2White House Crypto Report
13k Popularidad
3Growth Points Draw Round 12 Opens
8k Popularidad
4Fed Holds Rates Decision
7k Popularidad
5Alpha Points System Opens
17k Popularidad

Anclado