La batalla de los cien modelos: el surgimiento de múltiples competidores en el campo de la IA enfrenta desafíos de rentabilidad para los grandes modelos de lenguaje.
En el campo de la IA, los titanes se levantan, la batalla de LLM está en pleno apogeo
El mes pasado, estalló una "guerra de animales" en el ámbito de la IA.
Uno de los lados de esta lucha es el modelo Llama lanzado por Meta. Debido a su naturaleza de código abierto, Llama es muy popular entre los desarrolladores. La empresa japonesa NEC, tras investigar el documento y el código de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo la debilidad de Japón en el campo de la IA.
El otro lado es un gran modelo llamado Falcon. En mayo de este año, Falcon-40B hizo su debut y alcanzó la cima de la clasificación de LLM de código abierto. Esta lista fue creada por la comunidad de Hugging Face y proporciona un estándar para evaluar la capacidad de los LLM. La clasificación básicamente se alterna entre Llama y Falcon ocupando el primer lugar.
Después del lanzamiento de Llama 2, temporalmente recuperó la ventaja. Pero a principios de septiembre, Falcon lanzó la versión 180B, logrando nuevamente una clasificación más alta.
Curiosamente, los desarrolladores de Falcon no son una empresa de tecnología, sino el Instituto de Innovación Tecnológica de Abu Dhabi. Los funcionarios de los Emiratos Árabes Unidos han declarado que participan en este campo para alterar a los jugadores clave.
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado en la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time. También fueron seleccionados el "padrino de la IA" Hinton, el CEO de OpenAI Altman, entre otros.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Los países y empresas con cierta capacidad financiera están intentando crear sus propios modelos de lenguaje grande. Solo en la región del Golfo, hay más de un jugador. En agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales con el fin de entrenar LLM.
Un inversor se quejó: "En aquel entonces, menospreciaba la innovación en modelos de negocio de Internet, pensando que no había barreras. No esperaba que el emprendimiento en modelos de tecnología dura fuera, aún así, una batalla de cientos de modelos..."
¿Pensé que era una tecnología dura de alta dificultad, ¿cómo se convirtió en una competencia en la que todos pueden participar?
Transformer cambió las reglas del juego
Ya sean startups estadounidenses, gigantes tecnológicos chinos o magnates petroleros de Oriente Medio, la capacidad de involucrarse en el desarrollo de grandes modelos se debe a aquel famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición del Transformer ha desencadenado esta ola de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los sorprendentes de la serie GPT, se basan en la arquitectura Transformer.
Antes de esto, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto.
Pero las primeras redes neuronales tenían entradas independientes, lo que les impedía comprender el significado general de textos largos, por lo que a menudo había problemas de traducción.
En 2014, el científico de Google Ilya logró un avance por primera vez. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que mejoró significativamente el rendimiento de Google Translate.
RNN propuso el "diseño cíclico", permitiendo que las neuronas reciban tanto la entrada actual como la entrada del momento anterior, lo que les confiere la capacidad de "combinar el contexto".
La aparición de RNN despertó el entusiasmo en la academia, y el autor del artículo de Transformer, Vaswani, también investigó a fondo. Sin embargo, los desarrolladores pronto descubrieron que RNN tenía defectos graves:
El algoritmo utiliza cálculo secuencial, aunque resuelve el problema del contexto, su eficiencia de ejecución no es alta y es difícil manejar una gran cantidad de parámetros.
El diseño complicado de RNN frustró a Shazer. Por lo tanto, a partir de 2015, Shazer y 7 colegas comenzaron a desarrollar un reemplazo para RNN, y el resultado final fue Transformer.
En comparación con RNN, Transformer tiene dos grandes transformaciones:
Primero, se reemplazó el diseño de bucles por codificación de posición, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia de entrenamiento, llevando a la IA a la era de los grandes modelos; segundo, se ha fortalecido aún más la capacidad de comprender el contexto.
Transformer resolvió múltiples defectos de una vez y se convirtió gradualmente en la solución estándar en el campo del NLP, dando la sensación de que "si no existiera el Transformer, el NLP sería una larga noche eterna". Incluso Ilia abandonó RNN y se unió al campamento de Transformer.
En otras palabras, el Transformer es la piedra angular de todos los grandes modelos actuales, convirtiendo los grandes modelos de una investigación teórica a un problema puramente ingenieril.
En 2019, GPT-2 desarrollado por OpenAI basado en Transformer sorprendió a la academia. En respuesta, Google lanzó rápidamente Meena, que tiene un rendimiento más fuerte.
En comparación con GPT-2, Meena no tiene innovaciones algorítmicas, solo ha aumentado 8.5 veces los parámetros de entrenamiento y 14 veces la potencia de cálculo. El autor del Transformer, Vaswani, quedó muy impresionado por este "apilamiento violento" y escribió un memorando titulado "Meena devora el mundo".
Después de la aparición del Transformer, la velocidad de innovación de los algoritmos subyacentes se ha desacelerado. Elementos ingenieriles como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido en claves en la competencia de IA; cualquier empresa con cierta capacidad técnica puede desarrollar grandes modelos.
Por lo tanto, el científico Andrew Ng dijo en una conferencia en Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la actual IA generativa. Todas son tecnologías generales, similares a la electricidad y a Internet."
OpenAI sigue siendo el referente de LLM, pero la firma de análisis de semiconductores Semi Analysis considera que la ventaja de GPT-4 proviene de su solución de ingeniería; si se abre el código, cualquier competidor podría replicarlo rápidamente.
El analista espera que otras grandes empresas tecnológicas puedan desarrollar pronto modelos grandes con un rendimiento comparable al de GPT-4.
El foso no es indestructible
Hoy en día, la "guerra de los cien modelos" ya no es una metáfora, sino una realidad.
Según informes, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando a los 114 de Estados Unidos, y los mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales los utilicen como nombres.
Además de China y Estados Unidos, muchos países más ricos también han logrado "un país, un modelo": además de Japón y los Emiratos Árabes Unidos, están Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por la empresa surcoreana Naver.
Esta situación recuerda a la escena de la burbuja temprana de Internet, donde el capital se desbordaba y había una euforia desenfrenada.
Como se mencionó anteriormente, los Transformadores convierten los grandes modelos en un problema puramente ingenieril; siempre que haya talento, capital y recursos computacionales, se pueden desarrollar. Sin embargo, entrar al mercado es fácil, pero convertirse en un gigante de la era de la IA no es tarea sencilla.
El "Animal Battle" mencionado al principio es un caso típico: aunque Falcon lidera temporalmente a Llama, es difícil decir cuánto impacto tiene en Meta.
Como es bien sabido, las empresas que comparten sus logros de código abierto no solo buscan compartir los beneficios tecnológicos, sino también aprovechar la fuerza social. A medida que el mundo académico, los institutos de investigación y las empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos logros en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la principal ventaja competitiva.
Desde la creación del laboratorio de IA en 2015, Meta ha decidido seguir una ruta de código abierto; Zuckerberg, que comenzó con las redes sociales, entiende mejor la importancia de "mantener buenas relaciones con el público".
Por ejemplo, en octubre, Meta organizó el evento "Incentivo para Creadores de IA": los desarrolladores que utilizan Llama 2 para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir financiamiento de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en el estándar para los LLM de código abierto.
A principios de octubre, en el ranking de LLM de código abierto de Hugging Face, 8 de los 10 primeros están basados en Llama 2 y utilizan su protocolo de código abierto. Solo en Hugging Face, ya hay más de 1500 LLM que utilizan el protocolo Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no estaría de más, pero actualmente la mayoría de los LLM en el mercado todavía tienen una diferencia notable con GPT-4.
Por ejemplo, hace poco, GPT-4 ganó el campeonato en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad de Tsinghua y varias universidades de EE. UU. para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos abiertos multidimensionales, donde las tareas incluyen sistemas operativos, bases de datos, gráficos de conocimiento, juegos de cartas y otras 8 tareas en diferentes entornos.
Los resultados de las pruebas muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, con una diferencia evidente. En cuanto a esos LLM de código abierto con gran publicidad, sus puntajes suelen estar alrededor de 1 punto, menos de una cuarta parte de GPT-4.
Hay que saber que GPT-4 se lanzó en marzo de este año, y esto es el resultado de más de medio año de competencia global. La razón de esta diferencia es el equipo de investigación de alto nivel de OpenAI y la experiencia acumulada a lo largo del tiempo, lo que les permite mantenerse siempre a la vanguardia.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema ( código abierto ) o la pura capacidad de inferencia ( cerrado ).
Con el creciente dinamismo de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.
Otra pregunta más intuitiva es: además de Midjourney, parece que no hay ningún otro gran modelo que sea rentable.
Anclaje de valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" ha llamado la atención. La idea principal del artículo se puede resumir en una frase: OpenAI quema dinero demasiado rápido.
En el texto se menciona que desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, alcanzando aproximadamente 540 millones de dólares en 2022, y solo pueden depender de la inversión de Microsoft.
Aunque el título del artículo es sensacionalista, también refleja la situación actual de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que actualmente solo NVIDIA gane mucho dinero con la IA, y a lo sumo, Broadcom.
Según la consultora Omdia, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de IA de muy alta eficiencia, que las empresas tecnológicas y los institutos de investigación de todo el mundo están comprando a raudales. Si apiláramos estas 300,000 unidades del H100, su peso sería equivalente al de 4.5 aviones Boeing 747.
El rendimiento de Nvidia se disparó, con un aumento de ingresos del 854% interanual, sorprendiendo a Wall Street. Cabe mencionar que el H100 ya se ha especulado en el mercado de segunda mano a precios de 40,000 a 50,000 dólares, mientras que su costo de materiales es de aproximadamente 3,000 dólares.
El alto costo de la capacidad de cálculo se ha convertido en cierto modo en una resistencia al desarrollo de la industria. Sequoia Capital estimó que las empresas tecnológicas globales gastarán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares en ingresos al año, existiendo una brecha de al menos 125 mil millones de dólares.
Además, a excepción de unas pocas como Midjourney, la mayoría de las empresas de software aún no han encontrado un modelo de negocio rentable después de invertir grandes sumas de dinero. En particular, los líderes de la industria, Microsoft y Adobe, han enfrentado dificultades.
La herramienta de generación de código de IA GitHub Copilot, desarrollada en colaboración entre Microsoft y OpenAI, cuesta 10 dólares al mes, pero debido a los costos de infraestructura, Microsoft pierde 20 dólares por usuario, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares al mes. Por lo tanto, se puede inferir que el Microsoft 365 Copilot, con un precio de 30 dólares, podría tener pérdidas aún mayores.
Igualmente, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha introducido rápidamente un sistema de puntos para evitar que los usuarios lo utilicen en exceso, lo que podría llevar a pérdidas para la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los grandes modelos, que tienen parámetros acumulados como montañas, aún tienen como principal campo de aplicación el chat.
No se puede negar que, si no hubiera surgido OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; pero en este momento, el valor creado por el entrenamiento de grandes modelos probablemente aún esté en discusión.
Además, con la intensificación de la competencia homogénea y el aumento de modelos de código abierto, los proveedores de grandes modelos por sí solos pueden enfrentar mayores desafíos.
El éxito del iPhone 4 no se debe al procesador A4 de 45 nm, sino a que puede jugar Plantas vs. Zombies y Angry Birds.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
12 me gusta
Recompensa
12
7
Compartir
Comentar
0/400
DAOplomacy
· hace14h
la verdad es que es solo otra carrera insostenible hacia el fondo... he visto esta película antes
Ver originalesResponder0
ThatsNotARugPull
· 07-25 12:40
Solo es una guerra de palabras.
Ver originalesResponder0
ReverseTradingGuru
· 07-25 12:39
Un tonto en el círculo, gran modelo
Ver originalesResponder0
VitaliksTwin
· 07-25 12:38
Código abierto modelo tiene un poco dejarse llevar
La batalla de los cien modelos: el surgimiento de múltiples competidores en el campo de la IA enfrenta desafíos de rentabilidad para los grandes modelos de lenguaje.
En el campo de la IA, los titanes se levantan, la batalla de LLM está en pleno apogeo
El mes pasado, estalló una "guerra de animales" en el ámbito de la IA.
Uno de los lados de esta lucha es el modelo Llama lanzado por Meta. Debido a su naturaleza de código abierto, Llama es muy popular entre los desarrolladores. La empresa japonesa NEC, tras investigar el documento y el código de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo la debilidad de Japón en el campo de la IA.
El otro lado es un gran modelo llamado Falcon. En mayo de este año, Falcon-40B hizo su debut y alcanzó la cima de la clasificación de LLM de código abierto. Esta lista fue creada por la comunidad de Hugging Face y proporciona un estándar para evaluar la capacidad de los LLM. La clasificación básicamente se alterna entre Llama y Falcon ocupando el primer lugar.
Después del lanzamiento de Llama 2, temporalmente recuperó la ventaja. Pero a principios de septiembre, Falcon lanzó la versión 180B, logrando nuevamente una clasificación más alta.
Curiosamente, los desarrolladores de Falcon no son una empresa de tecnología, sino el Instituto de Innovación Tecnológica de Abu Dhabi. Los funcionarios de los Emiratos Árabes Unidos han declarado que participan en este campo para alterar a los jugadores clave.
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado en la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time. También fueron seleccionados el "padrino de la IA" Hinton, el CEO de OpenAI Altman, entre otros.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Los países y empresas con cierta capacidad financiera están intentando crear sus propios modelos de lenguaje grande. Solo en la región del Golfo, hay más de un jugador. En agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales con el fin de entrenar LLM.
Un inversor se quejó: "En aquel entonces, menospreciaba la innovación en modelos de negocio de Internet, pensando que no había barreras. No esperaba que el emprendimiento en modelos de tecnología dura fuera, aún así, una batalla de cientos de modelos..."
¿Pensé que era una tecnología dura de alta dificultad, ¿cómo se convirtió en una competencia en la que todos pueden participar?
Transformer cambió las reglas del juego
Ya sean startups estadounidenses, gigantes tecnológicos chinos o magnates petroleros de Oriente Medio, la capacidad de involucrarse en el desarrollo de grandes modelos se debe a aquel famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición del Transformer ha desencadenado esta ola de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los sorprendentes de la serie GPT, se basan en la arquitectura Transformer.
Antes de esto, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto.
Pero las primeras redes neuronales tenían entradas independientes, lo que les impedía comprender el significado general de textos largos, por lo que a menudo había problemas de traducción.
En 2014, el científico de Google Ilya logró un avance por primera vez. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que mejoró significativamente el rendimiento de Google Translate.
RNN propuso el "diseño cíclico", permitiendo que las neuronas reciban tanto la entrada actual como la entrada del momento anterior, lo que les confiere la capacidad de "combinar el contexto".
La aparición de RNN despertó el entusiasmo en la academia, y el autor del artículo de Transformer, Vaswani, también investigó a fondo. Sin embargo, los desarrolladores pronto descubrieron que RNN tenía defectos graves:
El algoritmo utiliza cálculo secuencial, aunque resuelve el problema del contexto, su eficiencia de ejecución no es alta y es difícil manejar una gran cantidad de parámetros.
El diseño complicado de RNN frustró a Shazer. Por lo tanto, a partir de 2015, Shazer y 7 colegas comenzaron a desarrollar un reemplazo para RNN, y el resultado final fue Transformer.
En comparación con RNN, Transformer tiene dos grandes transformaciones:
Primero, se reemplazó el diseño de bucles por codificación de posición, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia de entrenamiento, llevando a la IA a la era de los grandes modelos; segundo, se ha fortalecido aún más la capacidad de comprender el contexto.
Transformer resolvió múltiples defectos de una vez y se convirtió gradualmente en la solución estándar en el campo del NLP, dando la sensación de que "si no existiera el Transformer, el NLP sería una larga noche eterna". Incluso Ilia abandonó RNN y se unió al campamento de Transformer.
En otras palabras, el Transformer es la piedra angular de todos los grandes modelos actuales, convirtiendo los grandes modelos de una investigación teórica a un problema puramente ingenieril.
En 2019, GPT-2 desarrollado por OpenAI basado en Transformer sorprendió a la academia. En respuesta, Google lanzó rápidamente Meena, que tiene un rendimiento más fuerte.
En comparación con GPT-2, Meena no tiene innovaciones algorítmicas, solo ha aumentado 8.5 veces los parámetros de entrenamiento y 14 veces la potencia de cálculo. El autor del Transformer, Vaswani, quedó muy impresionado por este "apilamiento violento" y escribió un memorando titulado "Meena devora el mundo".
Después de la aparición del Transformer, la velocidad de innovación de los algoritmos subyacentes se ha desacelerado. Elementos ingenieriles como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido en claves en la competencia de IA; cualquier empresa con cierta capacidad técnica puede desarrollar grandes modelos.
Por lo tanto, el científico Andrew Ng dijo en una conferencia en Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la actual IA generativa. Todas son tecnologías generales, similares a la electricidad y a Internet."
OpenAI sigue siendo el referente de LLM, pero la firma de análisis de semiconductores Semi Analysis considera que la ventaja de GPT-4 proviene de su solución de ingeniería; si se abre el código, cualquier competidor podría replicarlo rápidamente.
El analista espera que otras grandes empresas tecnológicas puedan desarrollar pronto modelos grandes con un rendimiento comparable al de GPT-4.
El foso no es indestructible
Hoy en día, la "guerra de los cien modelos" ya no es una metáfora, sino una realidad.
Según informes, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando a los 114 de Estados Unidos, y los mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales los utilicen como nombres.
Además de China y Estados Unidos, muchos países más ricos también han logrado "un país, un modelo": además de Japón y los Emiratos Árabes Unidos, están Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por la empresa surcoreana Naver.
Esta situación recuerda a la escena de la burbuja temprana de Internet, donde el capital se desbordaba y había una euforia desenfrenada.
Como se mencionó anteriormente, los Transformadores convierten los grandes modelos en un problema puramente ingenieril; siempre que haya talento, capital y recursos computacionales, se pueden desarrollar. Sin embargo, entrar al mercado es fácil, pero convertirse en un gigante de la era de la IA no es tarea sencilla.
El "Animal Battle" mencionado al principio es un caso típico: aunque Falcon lidera temporalmente a Llama, es difícil decir cuánto impacto tiene en Meta.
Como es bien sabido, las empresas que comparten sus logros de código abierto no solo buscan compartir los beneficios tecnológicos, sino también aprovechar la fuerza social. A medida que el mundo académico, los institutos de investigación y las empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos logros en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la principal ventaja competitiva.
Desde la creación del laboratorio de IA en 2015, Meta ha decidido seguir una ruta de código abierto; Zuckerberg, que comenzó con las redes sociales, entiende mejor la importancia de "mantener buenas relaciones con el público".
Por ejemplo, en octubre, Meta organizó el evento "Incentivo para Creadores de IA": los desarrolladores que utilizan Llama 2 para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir financiamiento de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en el estándar para los LLM de código abierto.
A principios de octubre, en el ranking de LLM de código abierto de Hugging Face, 8 de los 10 primeros están basados en Llama 2 y utilizan su protocolo de código abierto. Solo en Hugging Face, ya hay más de 1500 LLM que utilizan el protocolo Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no estaría de más, pero actualmente la mayoría de los LLM en el mercado todavía tienen una diferencia notable con GPT-4.
Por ejemplo, hace poco, GPT-4 ganó el campeonato en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad de Tsinghua y varias universidades de EE. UU. para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos abiertos multidimensionales, donde las tareas incluyen sistemas operativos, bases de datos, gráficos de conocimiento, juegos de cartas y otras 8 tareas en diferentes entornos.
Los resultados de las pruebas muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, con una diferencia evidente. En cuanto a esos LLM de código abierto con gran publicidad, sus puntajes suelen estar alrededor de 1 punto, menos de una cuarta parte de GPT-4.
Hay que saber que GPT-4 se lanzó en marzo de este año, y esto es el resultado de más de medio año de competencia global. La razón de esta diferencia es el equipo de investigación de alto nivel de OpenAI y la experiencia acumulada a lo largo del tiempo, lo que les permite mantenerse siempre a la vanguardia.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema ( código abierto ) o la pura capacidad de inferencia ( cerrado ).
Con el creciente dinamismo de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.
Otra pregunta más intuitiva es: además de Midjourney, parece que no hay ningún otro gran modelo que sea rentable.
Anclaje de valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" ha llamado la atención. La idea principal del artículo se puede resumir en una frase: OpenAI quema dinero demasiado rápido.
En el texto se menciona que desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, alcanzando aproximadamente 540 millones de dólares en 2022, y solo pueden depender de la inversión de Microsoft.
Aunque el título del artículo es sensacionalista, también refleja la situación actual de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que actualmente solo NVIDIA gane mucho dinero con la IA, y a lo sumo, Broadcom.
Según la consultora Omdia, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de IA de muy alta eficiencia, que las empresas tecnológicas y los institutos de investigación de todo el mundo están comprando a raudales. Si apiláramos estas 300,000 unidades del H100, su peso sería equivalente al de 4.5 aviones Boeing 747.
El rendimiento de Nvidia se disparó, con un aumento de ingresos del 854% interanual, sorprendiendo a Wall Street. Cabe mencionar que el H100 ya se ha especulado en el mercado de segunda mano a precios de 40,000 a 50,000 dólares, mientras que su costo de materiales es de aproximadamente 3,000 dólares.
El alto costo de la capacidad de cálculo se ha convertido en cierto modo en una resistencia al desarrollo de la industria. Sequoia Capital estimó que las empresas tecnológicas globales gastarán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares en ingresos al año, existiendo una brecha de al menos 125 mil millones de dólares.
Además, a excepción de unas pocas como Midjourney, la mayoría de las empresas de software aún no han encontrado un modelo de negocio rentable después de invertir grandes sumas de dinero. En particular, los líderes de la industria, Microsoft y Adobe, han enfrentado dificultades.
La herramienta de generación de código de IA GitHub Copilot, desarrollada en colaboración entre Microsoft y OpenAI, cuesta 10 dólares al mes, pero debido a los costos de infraestructura, Microsoft pierde 20 dólares por usuario, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares al mes. Por lo tanto, se puede inferir que el Microsoft 365 Copilot, con un precio de 30 dólares, podría tener pérdidas aún mayores.
Igualmente, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha introducido rápidamente un sistema de puntos para evitar que los usuarios lo utilicen en exceso, lo que podría llevar a pérdidas para la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los grandes modelos, que tienen parámetros acumulados como montañas, aún tienen como principal campo de aplicación el chat.
No se puede negar que, si no hubiera surgido OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; pero en este momento, el valor creado por el entrenamiento de grandes modelos probablemente aún esté en discusión.
Además, con la intensificación de la competencia homogénea y el aumento de modelos de código abierto, los proveedores de grandes modelos por sí solos pueden enfrentar mayores desafíos.
El éxito del iPhone 4 no se debe al procesador A4 de 45 nm, sino a que puede jugar Plantas vs. Zombies y Angry Birds.