La capacidad de texto largo se convierte en un nuevo "estándar" para los fabricantes de modelos grandes
Los grandes modelos están mejorando su capacidad de procesamiento de texto a una velocidad asombrosa, pasando de los 4000 tokens iniciales a los actuales 400,000 tokens. La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo estándar para medir la fortaleza de los proveedores de grandes modelos.
Actualmente, las principales empresas y centros de investigación de modelos de gran escala en el país y en el extranjero están enfocándose en expandir la longitud del contexto como una dirección de actualización clave. La serie de modelos GPT de OpenAI ha sido actualizada varias veces, aumentando la longitud del contexto de 4,000 a 32,000 tokens. Anthropic ha elevado la longitud del contexto a 100,000 tokens de una sola vez. Kimi Chat, lanzado por la compañía china Yuezhidanmian, admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens.
La mejora de la capacidad de procesamiento de texto largo significa que el modelo puede manejar textos de entrada más largos, lo que mejora la comprensión de lectura. Desde poder leer solo un breve artículo, hasta ahora poder procesar una novela extensa. Esto no solo amplía los escenarios de aplicación del modelo, sino que también brinda la posibilidad de una actualización inteligente en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. La investigación muestra que no se puede equiparar directamente el soporte del modelo para entradas de contexto más largas con una mejora en los resultados. Lo más importante es la utilización efectiva del contenido del contexto por parte del modelo.
El fundador de la cara oculta de la luna, Yang Zhilin, cree que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros, y el número de pasos de ejecución se refiere a la longitud del contexto. La tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos y es una de las tecnologías clave para impulsar la implementación en la industria.
Actualmente, la tecnología de texto largo muestra un gran potencial en áreas como la extracción de información, la generación de código y el juego de roles. Sin embargo, en la aplicación práctica aún existen algunos problemas, como la incapacidad de conectarse a la red para obtener información actualizada y la imposibilidad de pausar y modificar el proceso de generación.
La tecnología de texto largo enfrenta la dificultad del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la capacidad de cálculo. Esto se debe principalmente a que la cantidad de cálculo del mecanismo de autoatención en la estructura de Transformer crece de manera cuadrática con la longitud del contexto.
Para resolver esta situación, actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos
Optimización del cálculo del mecanismo de autoatención
Métodos generales para la optimización de modelos
Aunque el dilema del "triángulo imposible" en textos largos no tiene solución temporalmente, esto también indica una dirección de exploración para los fabricantes de modelos grandes: buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, para manejar suficiente información al mismo tiempo que se consideran las limitaciones de cálculo de atención y costo computacional.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
16 me gusta
Recompensa
16
6
Compartir
Comentar
0/400
ChainDoctor
· 07-24 11:17
Dicho de manera simple, sigue siendo un tema de segmentos.
Ver originalesResponder0
GigaBrainAnon
· 07-24 06:55
Ah, otra vez en la longitud del rollo.
Ver originalesResponder0
quiet_lurker
· 07-24 06:52
¿Quién puede soportar el gasto de GPU?
Ver originalesResponder0
Blockwatcher9000
· 07-24 06:51
¿Para qué sirve un texto largo si no se puede explicar en diez palabras?
Ver originalesResponder0
ForkLibertarian
· 07-24 06:51
Ahora sé que más largo no siempre es mejor.
Ver originalesResponder0
AlwaysMissingTops
· 07-24 06:46
La longitud es realmente un problema difícil, ¿eh?
El procesamiento de textos largos por modelos grandes se convierte en un nuevo estándar, coexistiendo desafíos y oportunidades.
La capacidad de texto largo se convierte en un nuevo "estándar" para los fabricantes de modelos grandes
Los grandes modelos están mejorando su capacidad de procesamiento de texto a una velocidad asombrosa, pasando de los 4000 tokens iniciales a los actuales 400,000 tokens. La capacidad de procesamiento de textos largos parece haberse convertido en un nuevo estándar para medir la fortaleza de los proveedores de grandes modelos.
Actualmente, las principales empresas y centros de investigación de modelos de gran escala en el país y en el extranjero están enfocándose en expandir la longitud del contexto como una dirección de actualización clave. La serie de modelos GPT de OpenAI ha sido actualizada varias veces, aumentando la longitud del contexto de 4,000 a 32,000 tokens. Anthropic ha elevado la longitud del contexto a 100,000 tokens de una sola vez. Kimi Chat, lanzado por la compañía china Yuezhidanmian, admite la entrada de 200,000 caracteres chinos, lo que equivale a aproximadamente 400,000 tokens.
La mejora de la capacidad de procesamiento de texto largo significa que el modelo puede manejar textos de entrada más largos, lo que mejora la comprensión de lectura. Desde poder leer solo un breve artículo, hasta ahora poder procesar una novela extensa. Esto no solo amplía los escenarios de aplicación del modelo, sino que también brinda la posibilidad de una actualización inteligente en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. La investigación muestra que no se puede equiparar directamente el soporte del modelo para entradas de contexto más largas con una mejora en los resultados. Lo más importante es la utilización efectiva del contenido del contexto por parte del modelo.
El fundador de la cara oculta de la luna, Yang Zhilin, cree que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros, y el número de pasos de ejecución se refiere a la longitud del contexto. La tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos y es una de las tecnologías clave para impulsar la implementación en la industria.
Actualmente, la tecnología de texto largo muestra un gran potencial en áreas como la extracción de información, la generación de código y el juego de roles. Sin embargo, en la aplicación práctica aún existen algunos problemas, como la incapacidad de conectarse a la red para obtener información actualizada y la imposibilidad de pausar y modificar el proceso de generación.
La tecnología de texto largo enfrenta la dificultad del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la capacidad de cálculo. Esto se debe principalmente a que la cantidad de cálculo del mecanismo de autoatención en la estructura de Transformer crece de manera cuadrática con la longitud del contexto.
Para resolver esta situación, actualmente hay tres soluciones principales:
Aunque el dilema del "triángulo imposible" en textos largos no tiene solución temporalmente, esto también indica una dirección de exploración para los fabricantes de modelos grandes: buscar el mejor equilibrio entre la longitud del texto, la atención y el costo computacional, para manejar suficiente información al mismo tiempo que se consideran las limitaciones de cálculo de atención y costo computacional.