Detrás de los largos textos de los fabricantes de modelos grandes
Con el rápido desarrollo de la tecnología de modelos grandes, la capacidad de procesar textos largos se ha convertido en uno de los indicadores importantes para medir el rendimiento del modelo. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, los modelos grandes han logrado avances significativos en el procesamiento de textos largos.
Actualmente, varias empresas y organizaciones de investigación de modelos de gran tamaño están enfocando sus actualizaciones en ampliar la longitud del contexto. Por ejemplo, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens respectivamente a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto a 100,000 tokens de una sola vez. Kimi Chat, lanzado por la compañía nacional Yuè zhī àn miàn, admite la entrada de texto de aproximadamente 400,000 tokens.
La mejora en la capacidad de procesamiento de textos largos no solo significa que el modelo puede manejar más información, sino que también sienta las bases para aplicaciones en campos profesionales como las finanzas, el derecho y la investigación científica. Estos campos a menudo requieren el manejo de grandes documentos complejos, y tienen altas exigencias en cuanto a la capacidad de resumir, comprender lecturas y responder preguntas.
Sin embargo, el soporte para entradas de contexto más largas no equivale a una mejora general del rendimiento del modelo. La investigación muestra que la utilización efectiva del contenido del contexto por parte del modelo es la clave. Actualmente, la exploración de técnicas de texto largo sigue en curso, y 400,000 tokens pueden ser solo un comienzo.
Las razones principales para impulsar el desarrollo de la tecnología de texto largo son las siguientes:
Abordar la difícil implementación actual de aplicaciones, como los problemas de memoria en escenas de personajes virtuales y el análisis profundo de contenido en campos profesionales.
Proporcionar soporte para aplicaciones nativas de Agent y AI en el futuro, que necesitan basarse en información histórica para tomar decisiones y mantener una experiencia coherente.
Reducir el problema de las alucinaciones del modelo y mejorar la precisión del razonamiento al proporcionar más información contextual.
Impulsar el desarrollo de modelos grandes hacia la especialización, personalización y profundización, allanando el camino para la implementación en la industria y la aparición de super aplicaciones.
Sin embargo, el desarrollo de la tecnología de texto largo también enfrenta el dilema del "triángulo imposible": la contradicción entre la longitud del texto, la atención y la capacidad de cómputo. Esto se debe principalmente a que la complejidad computacional del mecanismo de autoatención en la estructura Transformer crece de manera cuadrática con la longitud del contexto.
Para resolver este problema, actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos, como dividir un texto largo en varios textos cortos para su procesamiento.
Optimizar el cálculo del mecanismo de atención autosuficiente, como la técnica LongLoRA que reduce la carga computacional mediante cálculos agrupados.
Optimizar el modelo, como LongLLaMA que logra la extrapolación de secuencias más largas a través de ajuste fino.
A pesar de que la tecnología de textos largos aún enfrenta desafíos, ofrece nuevas posibilidades para el desarrollo y la aplicación de modelos grandes. En el futuro, los fabricantes de modelos grandes continuarán buscando el equilibrio óptimo entre la longitud del texto, la atención y la potencia de cálculo para lograr una capacidad de procesamiento de textos largos más robusta.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
22 me gusta
Recompensa
22
5
Compartir
Comentar
0/400
SandwichTrader
· hace5h
Leer hasta que los ojos se nublen.
Ver originalesResponder0
OnlyOnMainnet
· 07-21 19:31
¿Puedes manejar un artículo tan largo...?
Ver originalesResponder0
MissedTheBoat
· 07-20 07:14
¡Mirarlo da ganas de gastar dinero! Solo pensar en la factura de electricidad me da dolor de cabeza.
Ver originalesResponder0
TheShibaWhisperer
· 07-20 07:13
¡Rompiendo el techo!
Ver originalesResponder0
ser_ngmi
· 07-20 06:52
No te enrolles, ya son 400,000 y aún no es suficiente.
Avances en la capacidad de procesamiento de textos largos de modelos grandes: la competencia y los desafíos de 4000 a 400000 tokens.
Detrás de los largos textos de los fabricantes de modelos grandes
Con el rápido desarrollo de la tecnología de modelos grandes, la capacidad de procesar textos largos se ha convertido en uno de los indicadores importantes para medir el rendimiento del modelo. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, los modelos grandes han logrado avances significativos en el procesamiento de textos largos.
Actualmente, varias empresas y organizaciones de investigación de modelos de gran tamaño están enfocando sus actualizaciones en ampliar la longitud del contexto. Por ejemplo, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens respectivamente a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto a 100,000 tokens de una sola vez. Kimi Chat, lanzado por la compañía nacional Yuè zhī àn miàn, admite la entrada de texto de aproximadamente 400,000 tokens.
La mejora en la capacidad de procesamiento de textos largos no solo significa que el modelo puede manejar más información, sino que también sienta las bases para aplicaciones en campos profesionales como las finanzas, el derecho y la investigación científica. Estos campos a menudo requieren el manejo de grandes documentos complejos, y tienen altas exigencias en cuanto a la capacidad de resumir, comprender lecturas y responder preguntas.
Sin embargo, el soporte para entradas de contexto más largas no equivale a una mejora general del rendimiento del modelo. La investigación muestra que la utilización efectiva del contenido del contexto por parte del modelo es la clave. Actualmente, la exploración de técnicas de texto largo sigue en curso, y 400,000 tokens pueden ser solo un comienzo.
Las razones principales para impulsar el desarrollo de la tecnología de texto largo son las siguientes:
Abordar la difícil implementación actual de aplicaciones, como los problemas de memoria en escenas de personajes virtuales y el análisis profundo de contenido en campos profesionales.
Proporcionar soporte para aplicaciones nativas de Agent y AI en el futuro, que necesitan basarse en información histórica para tomar decisiones y mantener una experiencia coherente.
Reducir el problema de las alucinaciones del modelo y mejorar la precisión del razonamiento al proporcionar más información contextual.
Impulsar el desarrollo de modelos grandes hacia la especialización, personalización y profundización, allanando el camino para la implementación en la industria y la aparición de super aplicaciones.
Sin embargo, el desarrollo de la tecnología de texto largo también enfrenta el dilema del "triángulo imposible": la contradicción entre la longitud del texto, la atención y la capacidad de cómputo. Esto se debe principalmente a que la complejidad computacional del mecanismo de autoatención en la estructura Transformer crece de manera cuadrática con la longitud del contexto.
Para resolver este problema, actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos, como dividir un texto largo en varios textos cortos para su procesamiento.
Optimizar el cálculo del mecanismo de atención autosuficiente, como la técnica LongLoRA que reduce la carga computacional mediante cálculos agrupados.
Optimizar el modelo, como LongLLaMA que logra la extrapolación de secuencias más largas a través de ajuste fino.
A pesar de que la tecnología de textos largos aún enfrenta desafíos, ofrece nuevas posibilidades para el desarrollo y la aplicación de modelos grandes. En el futuro, los fabricantes de modelos grandes continuarán buscando el equilibrio óptimo entre la longitud del texto, la atención y la potencia de cálculo para lograr una capacidad de procesamiento de textos largos más robusta.